Článek
Čtete tohle číslo z domova, nebo z dovolené? Z pláže? Postele, terasy, nebo třeba lodě?! Dejte mi vědět, jsem zvědavý. I přes to, že Praha se hezky vylidnila, že všichni a všechno jede tak nějak v dovolenkovém módu, tak svět AI má vlastní pravidla, a vypadá to, že AI dovolenou nepotřebuje. Takže i dnes přináším spoustu novinek. Přeji hezké čtení, a nezapomeňte se namazat… opalovákem, samozřejmě.
🕎 Moshi jde na trh… ne, to není začátek otřepaného židovského vtipu. Neví se, kdo vyhraje, ale už teď je třeba počítat se vším - AI a prezidentské volby v USA. Perplexity výrazně vylepšuje svého Pro Search asistenta a zároveň čelí právnímu útoku od Forbes a na závěr VALL-E 2. Taky mě to popletlo, ale není to ten robotek z pohádky. Jo a dneska navíc ještě zpráva o volebním výsledku prvního AI kandidáta v GB volbách.
⏯️ To, co bude hrát ke každému číslu, mě většinou napadá v průběhu týdne. Takže když šly přes Česko bouřky, napadla mě jedna písnička, ve které si pamatuji zvuk hromů… Je to blues z filmu Black Snake Moan (u nás to šlo myslím jako "V řetězech"). Uznávám, že to není úplně píseň k nerušenému čtení zpravodAIe, úvodní cca dvou minutový úvod s riffy prokládaný mluvením Samuela L. Jacksona by se mohl zdát rušivý. Ale… dejte jí šanci, myslím, že je to kousek, co se vymyká běžné hudební konfekci. Odkaz na YouTube: Black Snake Moan - Blues.
1️⃣ Klíčové hráče na poli AI většina z nás již zná, OpenAI, Google, Microsoft, Amazon… S ohledem na to, jaký vliv tyto společnosti mají, vznikají obavy z hegemonizace trhu, a obecně fungování naší společnosti. Právě proto jsou velice důležité i otevřené, open-source modely, které, prozatím drobně, narušují monopol hlavních vývojářů. I proto je zpráva, že francouzská společnost Kyutai. Pravděpodobně jste o ní zatím neslyšeli, ale je to poměrně významná evropská výzkumná laboratoř zabývající se AI, která sídlí ve Francii.
Tato společnost oznámila vydání otevřeného zdrojového kódu svého nejnovějšího projektu - Moshi. Tento nativní multimodální základní AI model je schopen komunikovat v reálném čase, což zahrnuje jak poslech, tak mluvení. Moshi je navržen jako pokročilý multimodální AI model, který integruje různé modality, jako je zvuk a text, do jednoho systému.
Tento model je schopen:
- Poslouchat a rozumět: Moshi dokáže přijímat a analyzovat zvukové vstupy v reálném čase, což mu umožňuje rozumět mluvené řeči s vysokou přesností.
- Mluvit a odpovídat: Model je také vybaven schopností generovat přirozený a plynulý mluvený výstup, což umožňuje interaktivní komunikaci s uživateli.
- Multimodální integrace: Moshi kombinuje textové a zvukové vstupy, což mu umožňuje poskytovat komplexní odpovědi a interakce, které jsou bohatší a více kontextově relevantní.
Moshi je - podle tvrzení vývojářů, postaven na nejnovějších technologiích v oblasti strojového učení a umělé inteligence. Důležité je, že je schopen komunikovat v reálném čase, bez prodlev. Jak jsem již uváděl, velmi důležité je i to, že jde o open source, což umožňuje komunitě vývojářů a výzkumníků přispívat k dalšímu vývoji a využití tohoto modelu.
Otevření zdrojového kódu Moshi je krokem k demokratizaci přístupu k pokročilým AI technologiím. Kyutai věří, že tímto krokem podpoří inovace a spolupráci v rámci globální komunity vývojářů a výzkumníků. Vývojáři mohou nyní přizpůsobit a integrovat Moshi do svých vlastních aplikací.
To, že Moshi představuje významný krok vpřed v oblasti multimodální umělé inteligence, je poměrně jasné. Jeho schopnost poslouchat a mluvit v reálném čase, spolu s otevřeným zdrojovým kódem, otevírá nové možnosti pro vývoj a aplikaci AI technologií. Zajímavé ale je, že podle prvotních reakcí by měl být v rámci realtime komunikace schopnější, než ChatGPT 4o.
Pokud by vás vyzkoušení Moshi zajímalo, můžete se zapsat na čekací listinu. Moshi je zatím experimentální a netuším, kdy bude otevřen pro veřejnost. Bližší informace jsou hezky dostupné na Marktechpost, nebo na Medium v článku od Vallabh Shrimangale.
2️⃣ AI a politika k sobě má samozřejmě blízko. A blízko k sobě má i politika a byznys. Takže je jasné, že většina společností zabývající se vývojem AI řeší potenciální změny, ke kterým by mohlo dojít, pokud by prezidentské volby v USA vyhrál Trump. Následující čtyři roky totž budou klíčové pro růst AI, což může přetvořit ekonomické priority a narušit globální nastavení spolupráce.
Pod vedením prezidenta Bidena se USA dostaly do éry ChatGPT, kdy veřejnost začala vnímat významné pokroky v AI. Příští prezident by mohl vést zemi obdobím, kdy technologie získá schopnosti potřebné k nahrazení lidí v mnoha rolích. To by mohlo vést k ekonomickým výzvám vyžadujícím rychlé a rozhodné politické kroky. Trumpova tendence k unilateralismu by ale mohla mít pro celý sektor negativní mezinárodní důsledky. Helen Toner, bývalá členka představenstva OpenAI a ředitelka na Georgetownově Centru pro bezpečnost a nové technologie, uvedla, že je těžké si představit pokračování účasti USA v pozici lídra na některých mezinárodních projektech v případě, že by byl zvolen Trump.
Dalším problémem, kterému bude muset čelit příští prezident, je nedostatečná produkce energie pro napájení datových center, která se očekává, že exponenciálně porostou. USA budou muset rozhodnout, zda rychle zvýšit domácí produkci energie nebo umožnit stavbu těchto center v energeticky bohatých zemích. Trump by sice mohl čelit menším překážkám než Biden, protože jeho voliči jsou méně znepokojeni environmentálními dopady spalování fosilních paliv - na druhé straně Biden prokázal schopnost přijímat komplexní legislativu, jako je CHIPS Act a Inflation Reduction Act, které řeší, mimojiné technologickou „studenou válku“ s Čínou.
Je nepochybné, že případná změna v pozici prezidenta přinese AI sektoru nové výzvy. Těžko predikovat, jakým směrem by se změnila případná politika USA, pokud by došlo ke zvolení Trumpa. A je dost dobře možné, že by v zásadě k žádné negativní změně nedošlo. Otázkou, která v souvislosti s tímto tématem ale může být zajímavá, je i to, jak by se změnilo prostředí pro vývoj AI v případě, že by sice nevyhrál Trump, ale místo Bidena by (s ohledem na zprávy o tom, že může pracovat už jen část dne) vyhrál jiný kandidát demokratů.
Podrobně o celém tématu píše Semafor.
3️⃣ O tom, že Perplexity je můj stabilní AI asistent se zmiňuji poměrně často. Proto mě zaujala i úplná novinka týkající se funkce „Pro Search“. Ta má totiž nově výrazně zjednodušit vyhledávání a „průzkum“ podkladů.
Pro Search, je tedy nově vylepšen tak, aby zvládal složitější dotazy, prováděl pokročilé matematické a programovací výpočty a poskytoval ještě lepší odpovědi.
Pro Search nyní přistupuje k složitým problémům s více vícekrokovým uvažováním. Rozumí, kdy otázka vyžaduje plánování, pracuje na cílech krok za krokem a syntetizuje podrobné odpovědi s větší efektivitou. Navíc Pro Search dokáže analyzovat výsledky vyhledávání a na základě svých zjištění podnikat inteligentní kroky. To zahrnuje zahájení následných vyhledávání, která navazují na předchozí výsledky.
Výrazně byl zvýšen i výkon Pro Search pro provádění kódů, což ho činí rychlejším a výkonnějším pro analýzu dat, ladění a generování obsahu. Navíc, díky integraci Wolfram|Alpha engine, nyní Pro Search řeší i složité matematické otázky s poměrně vysokou přesností (a rychlostí). Tahle vylepšená funkce je dostupná všem uživatelům (i ve free verzi, kde je omezena na pět použití každé čtyři hodiny). Platící uživatelé mají neomezený přístup (pravděpodobně by byl omezen pokud by došlo k porušení FUP).
Já už upgrade Pro Search mám nějakou dobu k dispozici, a musím říct, že vylepšení je to znatelné, i s ohledem na to, že nově vidíte, jak logicky je řešen váš dotaz.
Tahle úprava je zajímavá i ve světle nových právních problémů, kterým musí Perplexity čelit. V Perplexity totiž obdrželi dopis od Forbes, který obvinil společnost z krádeže textů a obrázků v rámci „úmyslného porušení“ autorských práv Forbes. Forbes nařknul Perplexity z toho, že kopíroval reportáže Forbes bez řádného uvedení zdrojů. Chatbot se snažil zvýšit svou důvěryhodnost citováním „zdrojovaných“ zpráv, které byly pouze agregovanými verzemi původních článků Forbes. Perplexity následně šířil svou verzi příběhu prostřednictvím push notifikací svým odběratelům a publikoval AI-generovaný podcast a video na YouTube.
Dopis, datovaný minulý čtvrtek, požaduje, aby Perplexity odstranil zavádějící zdrojové články, nahradil Forbes veškeré reklamní příjmy získané prostřednictvím porušení a poskytl „uspokojivé důkazy a písemné ujištění,“ že byly odstraněny porušující články. Dále Forbes žádá „písemná prohlášení a ujištění“ od Perplexity, že nebude používat duševní vlastnictví nebo obsah Forbes k generování a publikování článků chatbotem AI a že v budoucnu nebude porušovat autorská práva Forbes.
Více informací o novém Pro Search se dočtete přímo na blogu Perplexity. O právních útrapách Perplexity se zase dočtete třeba na webu Axios.
4️⃣ Miluju animáky, a mám hrozně rád pohádku VALL-I - je o takovém tom meziplanetárním robůtkovi, hledači života. To samozřejmě souvisí s tímhle článkem naprosto okrajově. Vzpomněl jsem si na to jen proto, že Microsoft má přelomovou AI technologii na generování hlasu, která se jmenuje VALL-E 2.
Výzkumný tým společnosti Microsoft totiž nedávno představil VALL-E 2, výrazně vylepšený systém umělé inteligence pro syntézu řeči. Tento systém dosahuje lidské úrovně výkonu při generování řeči z textu, a to i pro před tím neznámé mluvčí s pouze krátkým vzorkem řeči. A právě proto, že je to technika natolik pokročilá a přesvědčivá, tak vývojářský tým věří, že svět ještě není připraven na její uvolnění.
V čem je VALL-E 2 tak inovativní? Používá totiž dvě klíčové technologie:
1. Repetition Aware Sampling - První klíčovou inovací je metoda „Repetition Aware Sampling“ pro dekódovací proces, kde se naučené kódy převádějí na slyšitelnou řeč. Tento systém dynamicky přizpůsobuje výběr kódů jejich opakování v předchozí výstupní sekvenci. VALL-E 2 inteligentně přepíná mezi dvěma metodami vzorkování: „Nucleus Sampling“, která zvažuje pouze nejpravděpodobnější kódy, a náhodným vzorkováním, které zvažuje všechny možnosti rovnoměrně. Toto adaptivní přepínání výrazně zlepšuje stabilitu dekódovacího procesu a zabraňuje problémům, jako jsou nekonečné smyčky.
2. Skupinové modelování kódů - Druhou inovací je modelování kódů kodeku ve skupinách místo jednotlivě. VALL-E 2 kombinuje více po sobě jdoucích kódů a zpracovává je společně jako jakýsi „rámec“. Toto seskupení kódů zkracuje vstupní sekvenci pro jazykový model, což urychluje zpracování. Zároveň tento přístup zlepšuje kvalitu generované řeči zjednodušením zpracování velmi dlouhých kontextů.
V experimentech na datových sadách LibriSpeech a VCTK VALL-E 2 výrazně překonal lidský výkon z hlediska robustnosti, přirozenosti a podobnosti generované řeči. Stačily pouze třísekundové nahrávky cílových mluvčích. S delšími desetisekundovými vzorky řeči systém dosáhl slyšitelně lepších výsledků. Microsoft zveřejnil všechny příklady na svých webových stránkách.
Navzdory potenciálnímu využití v mnoha oblastech, jako je vzdělávání, zábava, přístupnost nebo překlad, výzkumníci upozorňují na zjevná rizika zneužití, jako je napodobování hlasů bez souhlasu mluvčího. Proto VALL-E 2 zůstává čistě výzkumným projektem a Microsoft nemá zatím v plánu jej integrovat do svých produktů nebo zpřístupnit veřejnosti.
Výzkumníci navrhují, aby byl nejprve vyvinut protokol, který zajistí, že osoba, jejíž hlas je slyšet, dala souhlas k syntéze, a také metoda pro digitální označování takového obsahu. Tento návrh je pravděpodobně inspirován vývojem v oblasti modelů AI pro obraz, kde se zavádějí vodoznaky jako C2PA. Nicméně, tyto metody zatím neřeší existující problém spolehlivého rozpoznávání AI-generovaného obsahu jako takového.
No, vypadá to, že sami výzkumníci teď volají po přípravě regulace některých AI nástrojů. Jak jsem říkal už několikrát - nemusí se to zdát, ale jsou to právníci, kteří by se teď měli doslova drát dopředu, aby připravili dostatečně robustní, ale zároveň srozumitelná a škálovatelná, pravidla pro budoucí život s AI.
Informace jsem převzal z The Decoder, jestli chcete informací více, tak mrkněte přímo na zdroj.
5️⃣ Mimochodem - v jednom z předchozích zpravodAIů jsem psal o prvním AI kandidátovi ve volbách do parlamentu ve Velké Británii. Volby proběhly, takže výsledky jsou známy. V jeho volebním obvodu - Brighton Pavilion, získal nejméně hlasů. Konkrétně 179. Vítěz 28.809 hlasů. Nicméně, druhý nejhorší výsledek, tentokrát živého kandidáta, byl zisk 184 hlasů. Tedy rozdíl mezi posledním a předposledním zase tak markantní nebyl.
🥀 Tohle není sice úplně zábava, ale Google vydal svůj nový Environmental Report. Je psaný optimisticky, je v něm spousta zajímavých závazků do budoucnosti, mluví se tam hodně o udržitelnost, o životním prostředí a jeho ochraně, ochraně uživatelů… Faktem ale zůstává, že se snížil objem využitých recyklovaných materiálů ze 41 % v roce 2022 na 34 % v roce 2023. To ale může být důsledek toho, že Google obecně začal využívat méně plastů. Nicméně emise CO2 se meziročně zvýšily o 13 % a mezi lety 2019 a 2023 o 48 % - v důsledku výstavby a provozu nových datových center. Pokrok nezastavíš, ale ty eko plány, které se každý rok prezentují v ročenkách a na mítincích, se dost rozpadají.
🤝 Toto číslo zpravodAIe vyšlo opět s podporou advokátní kanceláře ARROWS ETL
Díky, že mě čtete. Díky, že mě sdílíte, a že o AI mluvíte a zajímáte se o ni. Pokud se Vám zpravodAI líbí a považujete informace v něm za užitečné, sdílejte ho. Osvětu v AI považuji za naprostý základ na cestě k budoucnosti.
ZpravodAI vychází primárně na mém profilu na LinkedIn. Text je tak formátován a připraven právě pro LI.
Chcete se stát partnery zpravodAIe? Napište mi!
ZpravodAI je nově dostupný také na mém profilu na Seznam Medium. Pokud si myslíte, že víte o něčem, co by se mělo ve zpravodAI objevit, napište mi. Možná děláte na nějakém super AI projektu, možná používáte nástroj, který není známý, nebo prostě jen víte o něčem skvělém, co byste rádi šířili dál. Jestli se mi totiž něco stále potvrzuje, tak to, že AI je tak široké téma, že jedině sdílením jsme schopni ho nějak komplexněji pojmout.
Díky!