Hlavní obsah
Internet, technologie a elektronika

Co se děje v „mozku“ velkých jazykových modelů?

Foto: AI image generator - Adobe firefly

Obecný výklad mechanismu, který stojí za generováním textů velkých jazykových modelů, se opírá o tvrzení, že se jedná pouze o statistické odhadování dalšího slova ve větě. Skutečnost je ale daleko magičtější.

Článek

Slovo magické v perexu je užito zcela záměrně. K jeho užití mne inspiroval jeden z předních vědců v oblasti umělé inteligence, respektive přímo velkých jazykových modelů, který se podílel na jejich vývoji ve společnostech jako Google nebo Anthropic. Stanislav Fort v jednom ze svých rozhovorů totiž přímo říká, že AI na škále - parní stroj, mikroprocesor a magie - je z oblasti magie. I mikroprocesor má daleko blíže k parnímu stroji, protože má hierarchickou strukturu, umíme popsat celou fyziku za jeho fungováním atd.

Vědci jako on od samého začátku říkají, že omezovat vysvětlení fungování LLM na pouhou statistickou predikci je velké zjednodušení a sami se zabývají zkoumáním toho, jakým způsobem vlastně neuronové sítě dochází k výsledkům, k jakým dochází. V odborných kruzích se tomu říká interpretabilita velkých jazykových modelů.

Než se dostanu k náhledu několika velmi zajímavých mechanismů, které vyplývají z nedávné studie společnosti Anthropic, zmíním ještě jedno přirovnání, které Stanislav Fort použil v případě výtek na to, jak se jazykové modely občas mýlí (halucinují). Fort to přirovnává k situaci, kdyby náš pes začal mluvil a my bychom místo úžasu čtyřnohému příteli vytkli, že používá špatně gramatiku a neumí počítat. Tato přirovnání jsou důležitá ze dvou důvodů. Jednak nějakým způsobem naznačují hloubku a rozměr problematiky skryté za umělou inteligenci a činí tak pomocí jazyka, který je srozumitelný běžnému smrtelníkovi. Většina z nás se totiž nezachvěje úžasem pohledem na vzoreček algoritmů transformerů a potřebujeme popis v nějakých smysluplných analogiích. Sám se v následných řádcích pokusím srozumitelným jazykem vysvětlit některá přelomová, a v mnoha případech fascinující zjištění, která ze zmíněné studie vyplývají.

V hlavě LLM

V mnoha oblastech jsou velké jazykové modely jakýmsi black boxem, do kterého z jedné strany sypeme slova a z druhé strany z něj zase nějaká vypadnou. V případě neuronových sítí, které jsou učeny pomocí strojového učení (a přesně tímto velké jazykové modely jsou ), nikdo moc netušil, co se ve skutečnosti děje uvnitř. Což samozřejmě není ideální situace, pokud si děláme ambice tuto novou technologii „zkrotit“ tak, aby dělala přesně to, co potřebujeme. Proto, jak již bylo řečeno, se mnoho vědců zabývá interpretací a zkoumáním interních mechanismů, které uvnitř LLM probíhají. V minulých dnech se společnosti Anthropic (ta stojí za modelem Claude) povedla dosud nevídaná věc.

Inženýrům v Anthropicu se podařilo vyvinout speciální techniku, která umožňuje velmi detailně sledovat jednotlivé kroky interního „přemýšlení“ AI modelu Claude a to v dosud bezprecedentní úrovni detailu. Díky této technice tak mohou sledovat jednotlivé kroky, ve kterých Claude „přemýšlí“, mohou lokalizovat různá centra – obvody – které se daných operací účastní atd. Není to nepodobný obrázek tomu, jakým způsobem zkoumáme i lidský mozek. Z jejich prvních pokusů s touto technologií vyplynulo několik zajímavých a občas překvapivých závěrů, které posouvají naší schopnost rozumět interním mechanismům uvnitř samotných modelů.

Jaké to jsou?

Univerzální jazyk

Zjišťovalo se například, jak je možné, že Claude (ale je to typická vlastnost všech LLM) bez problémů a s lehkostí přechází mezi jednotlivými jazyky. Výzkumníky zajímalo, jestli má odlišné „mozky“ pro Angličtinu, Čínštinu, Francouzštinu a další jazyky, a nebo jestli existuje nějaký jednotící základ.

Zjistilo se že Claude často využívá ty samé interní koncepty pro ekvivalentní pojmy - významy napříč různými jazyky. Ve studii je uveden příklad s promptem (příkazem): Opozit slova malý. Claude nejdříve „uchopí“ samotné významy, které zpracuje na úrovni jednotného univerzálního jazyka a teprve následně výsledek distribuuje do požadovaného jazyka. Sousloví univerzální jazyk je samozřejmě trochu zavádějící. Lépe je přemýšlet o tomto prostotu jako o jazykově nezávislém prostoru, ve kterém se nejdříve zpracují koncepty, které se pak vyjádří skrze abstraktní úroveň konkrétního jazyka. Tento jazykově konceptuální framework samozřejmě nebyl do jazykových modelů jakkoliv „programován“. Vše tak naznačuje, že velké jazykové modely si sami vytvořily jakousi podobu jazykově nezávislou podobu mentálního jazyka.

Výzkumnici také zjistili, že tento konceptuální framework je rozsáhlejší a využívanější uvnitř větších modelů, než u těch menší.

LLM nepředpovídají jen následující slovo

Jak již bylo řečeno, obecná představa a nejen laická, často vysvětluje fungování LLM jako statistickou předpověď dalšího slova. Tato úvaha má sice správný základ, ale zdaleka nevystihuje vše. A díky jmenovanému výzkumu se náhled na to jak LLM generují text, ještě změnily.

Ukázalo se, že Claude ve skutečnosti skládá větu jiným způsobem. Když mu bylo přikázáno, aby doplnil rým, tak si stanovil nejdříve koncové slovo a pak doplnil smysl. Výzkumníci to pojmenovali přímo aktivním plánováním a přizpůsobováním v reálném čase. Jazykové modely k produkci koherentního textu tedy mohou plánovat několik kroků dopředu a to i když my ve skutečnosti vidíme pouze jeden krok - od slova ke slovu.

Vlastní řešení matematických problémů

Jazykové modely nejsou explicitně programovány tak, aby používaly matematická pravidla. A přesto nějakým způsobem počítat umějí. Claude například bez problémů vyřeší problém typu - spočítej kolik je 36 + 59. Existovalo několik teorií o způsobu výpočtu. Ten nejčastější byl, že prostě v tréninkových datech model tento výpočet viděl. Druhá teorie je, že se z tréninkových dat sám naučil používat standardních algoritmům, které používají lidé.

Ukázalo se, že pravda leží jinde a je velmi zajímavá. Ve skutečnosti Claude zapojil do výpočtu dva obvody. První se soustředil na odhad celkové velikosti součtu zatímco druhý si všímal posledních číslic. Výsledek prvního obvodu bychom mohli do našeho jazyka přeložit jako: Konečná suma by měla být někde kolem devadesáti zatímco druhý obvod skutečně sečetl malá čísla, ale s fokusem na poslední číslici. Takže 6 + 9 je 15, takže ho zajímala pětka a přidal jí k první aproximaci - 90.

Toto není cesta kterou bychom jako lidé k podobným výpočtům používali. Nicméně v případě těchto výpočtu je Claude úspěšný. Opět to vypadá, že si model vytváří nějakou interní logiku pro podobné výpočty. Ještě podivnější situace nastala v okamžiku, kdy se výzkumníci modelu zeptali, jak k výpočtu došel. Vymyslel si nesmyslnou odpověď. Což vede k úvaze, že model něco říká a něco jiného ve skutečnosti dělá. Samotná odpověď je velmi pravděpodobně zásadně motivována hlavně koherencí, tak aby odpovídala textu produkovanému lidmi. Tato skutečnost se odhaluje ještě daleko hlouběji v následujícím zjištění.

Halucinace

Každý, kdo pracuje s aplikacemi postavenými nad velkými jazykovými modely to zná. Když model neví, tak si to vymyslí. A to tak, aby výsledný text byl přesvědčivý a koherentní. Tento problém je pro současný výzkum jedním z nejpalčivějších. A proto se neustále zjišťuje proč a za jakých okolnosti k tzv. halucinování dochází. Výzkum Anthropicu do této problematiky přinesl zásadní vhled.

Již některé předchozí výzkumy přicházeli s hypotézami, že modely ve skutečnosti správnou odpověď znají, nebo vědí, že neví. Ukázalo se, že Claude skutečně disponuje nějakým základním mechanismem, který mu brání odpovědět, pokud si není jistý a pokud nemá k dispozici dostatečné množství informací. Ale na druhé straně existuje druhý obvod, který se snaží o odpověď i za cenu, že nedisponuje fakty. Aktivuje se v okamžiku, kdy zjistí, že otázka zahrnuje známé téma nebo oblast. V okamžiku kdy se tak stane, tak potlačí první obvod a odpoví, i když správnou odpověď ve skutečnosti nezná. Typicky tak v odpovědích na otázky vztahující se k obecně známé doméně (třeba známá osobnost) je obvod - nevím - potlačovaný, protože model má k dané známé osobnosti ohromné množství informací a odpoví i v případě, že na konkrétní otázku k ní odpověď nezná. V okamžiku kdy se zeptáme na neexistující doménu – třeba neznámé jméno člověka - a k ní nějakou otázku (třeba jestli hraje fotbal), druhý obvod ten první nepřebije a model je schopen říci, že neví.

Stimulace konkrétních obvodů

V jiné studii Anthropic vyzkoušel ještě jednu zajímavou věc. Stimulovat - posilovat konkrétní centra. Podařilo se mu třeba v neuronové síti vyhledat místo, které reprezentovalo význam Golden Gate Bridge. Toto místo pak stimulovali. Výsledkem bylo, že model i v případě reakcí na otázky z úplně jiné oblasti tento pojem do odpovědí zařazoval. Vždy v textově koherentní podobě. Při silné stimulaci dokonce model sám sebe identifikoval jako Golden Bridge!

Závěr

Z výše uvedených zjištění vyplývá mnoho závěrů a otázek pro další pátrání. Naznačují také cesty, jakým způsobem by se mohly žádané vlastnosti jazykových modelů posilovat – například v případě halucinování. Některá zjištění jsou naopak trochu znepokojivá. Třeba dichotomie mezi tím, co model produkuje v sémantické rovině v okamžiku, kdy se ho ptáme na jeho vlastní postupy, mechanismy atd. a tím, co se ve skutečnosti děje uvnitř něj. Znamená to, že sémantická kontrola je vlastně nefunkční. Řečeno jednoduše – je to jako u lidí. I LLM mohou kázat vodu a pít víno. Pozitivní zjištění v této oblasti naopak znamená samotná schopnost modelům vidět do hlavy a kontrolovat procesy v abstraktnějších vrstvách, než na úrovni významů obsažených v textovém výstupu. Příklad s Goldem Bridge také ukazuje cesty, jak je možné modely hacknout a zneužít.

Každopádně tato studie naše chápání o tom, jak velké jazykové modely fungují, posouvá správným a nadějeplným směrem a je jisté, že nás v budoucnosti v této oblasti čeká ještě mnoho překvapení.

Zdroje

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, https://transformer-circuits.pub/2024/scaling-monosemanticity/?ref=ghost.oxen.ai%2F

Sféry: se Stanislavem Fortem o vyhlídkách umělé inteligence, https://denikn.cz/1706580/sfery-se-stanislavem-fortem-o-vyhlidkach-umele-inteligence/

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Související témata:

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít psát. Ty nejlepší články se mohou zobrazit i na hlavní stránce Seznam.cz