Článek
Na první pohled by se mohlo zdát, že vývoj na poli generativní umělé inteligence (GAI) ustrnul za očekáváním. Mnoho lidí po mediální bouři nabylo dojmu, že se nejpozději za týden probudí do úplně jiného světa. Uplynul rok a půl a svět se zdá stále stejný. Asi to bylo mnoho povyku pro nic, může si leckdo pomyslet. Opak je však pravdou. Vývoj v oblasti GAI je tak rychlý, že se jen dílčí posuny nestačí otisknout v krátkém čase do běžné reality. Navrch to probuzení do nového světa nebude ze dne na den. Změna už se odehrává a do naší běžné reality se nové technologie vplíží tak přirozeně, že se stanou neviditelnými.
Technologie mají schopnost adaptovat se do naší sociální reality tak, že si mnoho lidí dodnes neuvědomuje, že tato realita ve skutečnosti již dávno není sociální, ale sociálně-technologická. Dosud se však vždy technologie adaptovaly a byly adaptovány tak, že byly z oddělené vrstvy technologické začleňovány do různých částí naší reality podobně jako legendární kostičky hry Tetris. Křemíkové čipy počítačů se nejdříve schovávaly v nevzhledných bednách s hučícími větráky pod stoly v kancelářích a pomalu se rozhlížely, kam by se mohly vsunout do našich běžných dnů. Trvalo to jen chvilku, než se kostička správně nasměrovala a dnes jsou součástí každé kapsy, kabelky, často spoluvytváří podobu našeho společenského statusu, vstáváme s nimi i usínáme. Kostička nejenom že zapadla přesně do vyhrazené části naší reality, ale úplně přesně stejně jako v Tetris, společně s vrstvou sociální reality, do které zaklapla, vzápětí zmizela. To zmizení znamená, že se stala neoddělitelnou, nekontrolovanou a téměř nevnímanou součástí našich životů.
Adaptace produktů postavených na GAI však probíhá a bude probíhat úplně jinak. Poprvé v dějinách k nám technologie vstupuje již od začátku maskovaná šaty lidství. Skrytá v samotném základu toho, co jsme dosud považovali za výsadu homo sapiens. Oděla se do jazyka a jeho vizuální extenze. Ještě před rokem mnozí zmiňovali, že existuje ještě jedna důležitá bariéra, která je reprezentována lidskými emocemi a empatií. Zapomeňme na ní. I ona už padla.
Během posledních pár týdnů lídři v oblasti vývoje nástrojů založených na GAI představili světu několik přelomových novinek. Společnost Microsoft zveřejnila výsledek svého nového natrénovaného modelu VASA 1, kterému stačí jedna obyčejná fotografie tváře, kousek audio záznamu s hlasem a on vytvoří video tak dokonalé, že se toho v Microsoftu samotní lekli a nedají model k dispozici ke komerčnímu užiti. Mluvící hlava vytvořená z jedné jediné fotografie je k nerozeznání od reálné. Nejen, že text, který je jí předložen, interpretuje hlasem, který jí byl poskytnut, ale mluvený text naprosto perfektně lícuje s pohyby úst. Co je však až nepochopitelné (a my si řekneme, jak je to možné) je mimika tváře a intonace, které projevu propůjčí emoce.
Společnost Open AI uvolnila zase novou verzi svého chatu, tentokráte označeného jako GPT-4o. To „o“ značí omni. V češtině vše. Tento model se vyznačuje tím, že s ním nemusíme komunikovat skrze textové rozhraní, nýbrž přirozeným hlasem. Chat má také zásadně zrychlenou reakční dobu, takže konverzace s ním je přirozená. Pokud budete s Omni komunikovat v angličtině, je model také schopen svůj projev doplnit přirozenou intonací a emočním zabarvením.
Vzápětí na to Google představil Projekt Astra, což je také komunikační agend využívající přirozený jazyk ve fonetické podobě, ale také se schopností reagovat a analyzovat dění kolem nás. A to jak zvuk, tak obraz.
Ona – budeme jí také milovat
V roce 2013 natočil režisér Spike Jonze skvělý sci-fi film Her – Ona. Do hlavní role obsadil výtečného Joaquina Phoenixe, který hraje citlivého a komplikovaného muže, jenž se postupně zamiluje do své virtuální asistentky Samanthy. Postupně jí svěřuje ty nejskrytější a nejintimnější detaily svého života, odplatou je mu porozumění, pochopení z druhé strany, které ho samotného nutí překračovat své stereotypy a hranice.
O jedenáct let později jsme na začátku éry, kdy se z této sci-fi stává dokument. Všechny zmíněné projekty totiž směřují přesně tímto směrem. K vytvoření dokonalé, asistivní AI, která nám bude pomáhat rozvíjet se, zlepšovat se, řešit psychické i zdravotní problémy. (Za tímto účelem nedávno Google představil svůj projekt Med-Gemini, který již nyní disponuje skvělými schopnostmi v oblasti diagnostiky. Rád bych se mu věnoval v některém z dalších příspěvků samostatně.)
Z těchto asistentů se tak stanou naší osobní koučové, učitelé, psychologové, lékaři, finanční poradci atd. Protože k nim získáme důvěru, budeme jim poskytovat více a více informací, nejen o sobě, ale i o svém okolí, protože pak budou jejich rady, predikce, nápady a diagnózy ještě přesnější. V západním světě nabývá fenomén osamění nebývalých rozměrů. A to od seniorů až po mladou generaci. Bude to hlas jejich AI asistentky, nebo asistenta, který uslyší jako poslední před usnutím a jako první po ranním probuzení. Bude to hlas chápavý, dokáže povzbudit, motivovat, zahnat pocit samoty.
Jak rozumí AI emocím?
Stanislav Fort, absolvent oborů matematiky a teoretické fyziky na Univerzitě v Cambridgi, který v současné době pracuje jako seniorní výzkumník na jazykových modelech ve společnosti Google, říká. „Dříve například vládlo přesvědčení, že jelikož máme co do činění s počítačem, bude systém dobrý v logice a matematice, ale ne v chápání emocí a v intuitivním pochopení toho, co my lidé máme na mysli, co chceme sdělit. Ukázal se ale pravý opak. Umělá inteligence sice běží na digitálním počítači, přitom je ale extrémně dobrá právě v chápání emocí a implicitního významu různých sdělení – a relativně špatná v logice a v matematice.“
Jak je to ale možné? Pokud se budeme snažit pochopit základní principy toho, jak obecně fungují modely založené na strojovém učení neuronových sítí, což jsou právě třeba velké jazykové modely, zjistíme, že společným znakem, nebo spíše hlavní silou těchto modelů, je schopnost rozeznávání skrytých vzorců v datových strukturách. Co to znamená? Všichni známe třeba obrázky, které se na první pohled tváří jako změť nějakých bodů, nebo barev, které se po nějakém typu soustředění promění v konkrétní obrázek. Obrázek z oné změti dat jakoby vystoupí. Právě jsme odhalili skrytý vzorec v datové struktuře. Obrázek tam byl od začátku, jen byl jaksi ztracen. Něco podobného umí zmíněné modely s ohromným množstvím dat. Když jsou učeny, můžeme jim říkat, co mají hledat – podobně jako v případě zmíněných obrázků, anebo je také můžeme nechat hledat vlastní vzorce. Datovou sadou jsou tak pro velké jazykové modely texty. Ohromné množství textů. Text je tvořen jazykem a na jazyk je možné se dívat třeba jako na topologický model, který disponuje svou vlastní strukturou. V tak ohromném množství textu, kterým jsou jazykové modely učeny, se toho skrývá zakódováno mnohem více. Naše předpojatosti (rasové, náboženské, genderové), které už jazykové modely odhalily, ale také způsoby, jak používáme a vnímáme emoce. Když jazyková data doplníme ještě daty vizuálními a fonetickými, modely tyto vzorce propojí s dalšími vzorci – třeba s naší mimikou, intonací atd. Znamená to také, že v okamžiku, kdy jim dodáme dostatečné množství informací / dat o nás samých, budou moci bez problémů analyzovat naše vlastní chování, předpojatosti, slabiny atd. Nikoliv v přeneseném slova smyslu o nás velmi brzy budou vědět více, než my samotní.
Poslední otázka zní: Kdo bude strážcem brány?
Za celou to magií je ve finále neskutečná výpočetní síla, ohromné množství hardwaru a dalších částí infrastruktury, tisíce lidí, stamiliardy investované do výzkumu a rozvoje. Je tedy naprosto jasné, že podobné služby nám nikdo nebude poskytovat jen pro naše modré oči. Zapomeňme nyní na svět, kdy naší měnou jsou samotná data o nás, ale představme si férový svět, ve kterém prachobyčejně za službu osobního asistenta zaplatíme. Stejně, jako když jdeme k tomu živému. Platit budeme, bude to nutnost. Tlak bude ohromný, výsledky používání těchto služeb budou nesporné a kdo nenastoupí, tomu vlak ujede. Navrch v mnoha oblastech tito asistenti budou suplovat službu lidí, kterých je již nyní v systému nedostatek. Lékaři, psychologové, sociální pracovníci atd. Nemusí se nám to líbit, ale to je tak všechno.
Na konci tak zbyde otázka, kde budou fyzicky všechna ta data o nás, uložena, kdo k nim bude mít přístup, co s nimi bude dělat. Stejně tak jako jsme se mohli přesvědčit v případě sociálních sítí a personalizované reklamy, to mnoho lidí vůbec nebude zajímat, nebo si tento problém nebudou vůbec uvědomovat. Případně mávnou rukou, hlavně ať je to levné a mohu si užívat benefitů, které mi z podobných služeb poplynou. Pak tu máme lidi staré, nemocné, čelící samotě, psychickým problémům atd. Ti všichni také budou v první řadě řešit přínosy těchto služeb. Musíme si také uvědomit, že naše tajemství obsahují také tajemství těch druhých. Babička povídající si večer v domově pro seniory se svou AI asistentkou může ledasco vyzradit třeba o svých dětech atd.
Otázku střežení osobních dat jsme v první fázi integrace digitálních médií do naší sociální reality hrubě podcenili. Až v poslední době se snažíme, ne úplně efektivně, ale alespoň nějakým způsobem, na tomto tématu pracovat. Druhá fáze této integrace však bude v této oblasti ještě zásadnější. Měli bychom se proto nebát vážit všechny možné scénáře a důsledky, které se s podobně váhavým postojem, jaký jsme zaujímali dosud, mohou pojit. Kruciálním krokem je uvědomění si, že otázka: Kdo bude strážcem brány, nemá být ve skutečnosti otázkou poslední, ale první.
Zdroje
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time, https://www.microsoft.com/en-us/research/project/vasa-1/
Advancing medical AI with Med-Gemini, https://research.google/blog/advancing-medical-ai-with-med-gemini/
OpenAI announces new free model GPT-4o and ChatGPT for desktop, https://venturebeat.com/ai/openai-announces-new-free-model-gpt-4o-and-chatgpt-for-desktop/
Respekt, NEČEKALI JSME, ŽE SE UMĚLÁ INTELIGENCE NAUČÍ ROZUMĚT EMOCÍM, https://www.respekt.cz/tydenik/2024/20/necekali-jsme-ze-se-umela-inteligence-nauci-rozumet-emocim