Článek
Stále více se u svých kolegů a známých setkávám se slepou důvěrou v odpovědi chatbotů, kterým zkratkovitě říkáme AI (umělá inteligence). Je to termín, který se nám zažil, který používáme všichni, každý v dnešním kontextu chápeme, že se tím myslí ChatGPT, Gemini, Claude atd. Jazyk je mocný nástroj a pojem „umělá inteligence“ nám toho implikuje hodně. Přirozeně, ze všeho nejvíce implikuje, že kód, se kterým textově komunikujeme, je inteligentní.
Inteligenci definujeme jako schopnost učit se ze zkušeností, adaptovat se na nové situace, pochopit složité koncepty a schopnost využít své poznatky k manipulaci svého okolí. Je to definice zjednodušená a rozhodně můžeme jít více do hloubky, ale pro potřeby mého argumentu nám to teď stačí.
„AI“ tak, jak ji známe dnes, respektive tak, jak ji známe cca od listopadu 2022, kdy se poprvé širší veřejnosti ukázal první použitelný model GPT od OpenAI, funguje na principu velkých jazykových modelů (LLM – Large Language Model), tu zkratku LLM jste už asi taky slyšeli.
Popsat jednoduše, jak funguje LLM, není úplně triviální. Nejlepší definice je asi ta, že funguje na stejném principu, jako když klávesnice ve vašem telefonu nabízí tzv. „autocomplete“. Tedy na základě toho, co jste už napsali, nabízí další pravděpodobné slovo, které ve větě bude. Napíšete „Moc mě…“ a mobil doplní slovo „těší“, protože je nejpravděpodobnější v dané větě. Pochopitelně proti LLM je tento model naprosto primitivní, ale funkčně je mu podobný.
Představte si to tak, že každé slovo (respektive některá slova se i dělí například na slabiky) je převedeno (zjednodušeně) na číselnou hodnotu, které pak říkáme token. LLM pak funguje na principu, že v učící fázi do modelu nalejeme extrémní množství dat. Dnes bychom s trochou nadsázky (nebo i bez ní) řekli, že to prostě „schroupe“ celý internet. Každou větu, co byla kdy napsaná ve článcích, v komentářích, v návodech, v právních textech, v knihách atd. Zde bychom ještě mohli polemizovat o legalitě toho, jestli měly společnosti typu OpenAI vůbec právo tato data využít na učení jejich LLM, ale o tom třeba v jiném článku. Jakmile je „chroupací“ část u konce, LLM si vytvoří mapu všech těch slov, tak jak se nejčastěji vyskytují u sebe. Stejně tak to umí udělat s pixely obrázků (a taky u videa, které je vlastně jenom soubor více obrázků), tohle udělá v několika tisících dimenzí a na základě toho vám prostě odpovídá.
Prostě ví, že když se ho zeptáte třeba na Jardu Jágra, tak ve své naučené mapě souvislostí najde, že slova Jarda, Jágr, gól a NHL spolu úzce souvisejí – model přitom nelistuje v žádné databázi článků jako vyhledávač, ale během tréninku si vytvořil jakousi mapu vzdáleností mezi slovy a koncepty. Čím více kontextu dáte (například kolik dal Jarda gólů), tím přesněji si ve svém modelu najde nejpravděpodobnější odpověď – v tomto případě číslo 766 v NHL – a postupně vygeneruje větu, která obsahuje všechny tyto informace a nejbližší slova okolo nich, takže to nakonec zní jako článek, či věta, či odpověď, kterou napsal člověk. S každým dalším slovem, které model napíše, se sám zpřesňuje a zlepšuje si šanci, že to, co napíše, dává smysl. Proto typicky ChatGPT často věci „okecává“.
To nás vede k jednomu z nejpodstatnějších rizik LLM: protože model nehledá fakta, ale generuje nejpravděpodobnější pokračování textu, občas si s naprostou jistotou a sebevědomím vymýšlí. Odborně se tomu říká „halucinace“. Model vám klidně vygeneruje neexistující citaci z neexistující knihy, vymyslí zákon, který nikdy neplatil, nebo vám poradí lék, který neexistuje – a udělá to naprosto přesvědčivě, protože jeho úkolem není říkat pravdu, ale generovat text, který pravdu připomíná. To je ten hlavní důvod, proč byste nikdy neměli odpovědím chatbotů slepě důvěřovat bez ověření.
Zpět k našemu úvodu. Podstatou je, že to, co vám ChatGPT (nebo jiný nástroj) vrátí, nesouvisí s jeho pochopením vašeho textu, ale s matematikou a statistikou. Tady mě neberte špatně. To, že to model dokáže, je úžasné a v mnoha ohledech užitečné a nechci tady shazovat práci tisíců výzkumníků, ale ten model tomu nerozumí, respektive – zda tomu, co generuje, v nějakém smyslu „rozumí“, je předmětem vášnivé odborné debaty. Část výzkumníků argumentuje, že velké modely vykazují takzvané emergentní schopnosti – dokážou řešit úlohy, které nikdy neviděly, nebo analogicky uvažovat způsobem, který pouhá statistika nevysvětluje. Mnozí další ale namítají, že jde stále jen o sofistikované rozpoznávání vzorců. Pro naše účely je ale podstatné jedno: ať už tomu říkáme porozumění, nebo ne, model nemá žádný mechanismus, jak si ověřit pravdivost toho, co generuje.
Pokud si kontext nedrží tím, že jej o to požádáte, tak zapomene. Zároveň model nevnímá současnost. Neumí se nic nového naučit. Jasně, váš vstup sám o sobě mu dává informace, které ale on zase zpracovává jenom coby statistická data a hledá k nim nejpravděpodobnější pokračování. Některé modely umí prohledávat internet a udělají to, že si do vašeho promptu (tedy toho vašeho zadání) ještě vloží informace, které mu vrátí vyhledávací algoritmus, a použije je pro kontext.
Je fér dodat, že dnešní modely jsou výrazně sofistikovanější než první GPT z roku 2022. Používají se techniky jako RLHF (Reinforcement Learning from Human Feedback), kdy lidští hodnotitelé zpětnou vazbou učí model, které odpovědi jsou užitečné a které ne. Díky tomu dnešní chatboty působí mnohem „lidštěji“ a méně často říkají naprosté nesmysly. Ale základní princip zůstává stejný – stále jde o predikci nejpravděpodobnějšího dalšího slova, byť vylepšenou.
U věcí, které jsou prostě už dlouho neměnné – různé encyklopedické definice – je tento model skvělý: lidským způsobem vám vysvětlí, jak něco funguje. Ale zároveň, pokud se mezi daty, na kterých se model naučil, a momentem, kdy se ptáte, něco změnilo, model to neví. Model nechápe, o čem s vámi mluví, jenom se snaží najít tu nejlepší odpověď na vaši otázku pomocí matematických a statistických funkcí. Nic víc. Nic míň.
Je to technologie úžasná a užitečná, ale rozhodně neindikuje žádnou inteligenci. Pouze napodobuje lidskou řeč. To samo o sobě je skvělé. Také díky tomu rozumí vaší lidské řeči a umožňuje vám ovládat počítač lépe. I to je fantastické a užitečné. Využití je celá řada, ale jsou limitní.
Velké jazykové modely se z principu nestanou samy o sobě „inteligentními“. Jejich tvůrci, respektive spíš CEO těchto společností, těží z toho, že tyto modely nazýváme umělou inteligencí, a sami budují auru tajemna. Dokonce i přiživování strachu z AI je pro ně užitečné, protože to implikuje schopnosti, které AI prostě nemá a v této podobě mít nebude.
LLM jsou skvělé, mají obrovské možnosti využití a rozhodně nám už teď proměnily svět, nicméně myslet si, že jenom tím, že je budeme do nekonečna škálovat (a pálit při tom absurdní množství energie a vody), jednoho dne se stanou tou umělou superinteligencí, je jako křížit koně na rychlost a myslet si, že jedna klisna porodí lokomotivu.
LLM není AI, LLM je LLM. LLM je užitečný matematický a statistický model, ale není to AI. Pamatujte na to, až zase budete komunikovat s vaším oblíbeným chatbotem.
(článek byl napsán mnou samým, LLM bylo využito pro jazykovou korekturu a vygenerování obrázku, protože na tyhle věci je to fakt užitečný nástroj)
