Hlavní obsah
Internet, technologie a elektronika

Od umělého neuronu k ChatGPT: osmdesát let cesty, která změnila svět

Foto: Google Gemini

Evoluce AI

Od matematického modelu neuronu z roku 1943 k miliardovým jazykovým modelům. Příběh průlomů, slepých uliček a architektury, která změnila svět.

Článek

Na podzim 2024 udělila Královská švédská akademie věd Nobelovu cenu za fyziku dvěma mužům, kteří strávili kariéru prací na něčem, co s fyzikou zdánlivě nesouvisí — na umělých neuronových sítích. John Hopfield a Geoffrey Hinton převzali ocenění za „zásadní objevy umožňující strojové učení.“ Mnozí v komunitě se ptali: proč právě oni? A proč až teď?

Odpověď vyžaduje cestu zpět — o osmdesát let — k okamžiku, kdy neurofyziolog a logik poprvé matematicky popsali, jak by mohl myslet stroj.

Neuron z papíru

V roce 1943 navrhli Warren McCulloch a Walter Pitts matematický model neuronu. Jednoduchá prahová jednotka: pokud vážený součet vstupů překročí hranici, neuron se aktivuje. Žádné učení, žádná adaptace — váhy nastavoval člověk ručně. Přesto šlo o fundamentální myšlenku: výpočet a myšlení mohou fungovat na stejném principu.

O patnáct let později přidal Frank Rosenblatt to, co McCullochovu a Pittsovu modelu chybělo. Jeho perceptron se uměl učit z dat. Jednoduchým pravidlem aktualizoval váhy na základě chyb, které udělal. Americké námořnictvo výzkum financovalo, New York Times v roce 1958 psal o „elektronickém mozku.“ Rosenblatt předpovídal stroje, které budou chodit, mluvit a uvědomovat si svou existenci.

Nadšení netrvalo dlouho. V roce 1969 Marvin Minsky a Seymour Papert publikovali knihu Perceptrons, ve které matematicky dokázali, že jednovrstvý perceptron nezvládne ani triviální úlohy. Nedokáže se naučit XOR — logickou funkci, kterou pochopí školák. Jejich kniha nebyla jediným důvodem, ale stala se symbolem obratu: britský Lighthillův report z roku 1973 a následné škrty v americkém a britském financování udělaly zbytek. Nastala první „AI zima.“

Pravidla místo učení

Zatímco neuronové sítě stagnovaly, pozornost se přesunula k expertním systémům — programům tvořeným ručně kódovanými pravidly typu „jestliže pacient má horečku a bolest hlavy, pak zvažuj meningitidu.“ Stanfordský MYCIN, na kterém práce začaly v roce 1972, diagnostikoval bakteriální infekce na základě přibližně pěti až šesti set takových pravidel. V testech dosahoval přesnosti srovnatelné se specialisty na infekční choroby.

Expertní systémy vypadaly jako budoucnost. Firmy investovaly miliardy. Jenže pravidla psal člověk, a člověk nedokáže pokrýt komplexitu reálného světa. Systémy byly křehké — fungovaly v úzké doméně a mimo ni selhávaly. Koncem osmdesátých let se trh expertních systémů zhroutil. Druhá AI zima.

Watson: síla strojového učení nestačila

Éru ručně kódovaných znalostí uzavřela druhá AI zima. Jenže i pozdější, sofistikovanější přístupy narazily na limity. IBM Watson to ukázal nejdramatičtěji.

Watson nebyl expertní systém — jeho architektura DeepQA kombinovala zpracování přirozeného jazyka, vyhledávání informací a přes padesát modelů strojového učení. V roce 2011 porazil lidské šampiony v televizní soutěži Jeopardy! a IBM ho zkusilo nasadit v onkologii. Watson for Oncology měl analyzovat lékařskou literaturu a doporučovat léčbu rakoviny. Výsledek byl neuspokojivý — systém nedokázal spolehlivě porozumět nestrukturované klinické dokumentaci, vyžadoval enormní ruční kurátorství pro každou nemocnici zvlášť a nedokázal se učit z lokálních pacientských dat. V roce 2022 IBM divizi Watson Health prodalo.

Watsonův příběh ilustruje hlubší pravdu: ani masivní inženýrský přístup s prvky strojového učení nestačí, pokud systém nedokáže sám extrahovat vzory z dat. K tomu byla potřeba jiná cesta — cesta zpět k neuronovým sítím.

Průlom ze zpětného chodu

Paralelně s kolapsem expertních systémů se tiše odehrávala revoluce. Algoritmus zpětného šíření chyby — backpropagation — měl kořeny v automatické diferenciaci Seppa Linnainmay z roku 1970 a v práci Paula Werbose z roku 1974. Ale až článek Davida Rumelharta, Geoffreyho Hintona a Ronalda Williamse z roku 1986 ukázal, že backpropagation prakticky funguje pro trénink vícevrstvých sítí.

Myšlenka je elegantní. Síť udělá predikci, porovná ji se správnou odpovědí, vypočítá chybu a tu šíří zpět vrstvami — od výstupu ke vstupu. V každé vrstvě upraví váhy tak, aby příště chybovala méně. Opakováním na milionech příkladů se síť naučí rozpoznávat vzory, které jí žádný člověk explicitně nepopsal.

Tím padlo Minského omezení. Vícevrstvé sítě zvládly XOR i mnohem složitější úlohy. Yann LeCun na konci osmdesátých let navrhl konvoluční neuronové sítě pro rozpoznávání ručně psaných číslic — první architekturu, kterou americká pošta skutečně nasadila v praxi.

Obrazy, které změnily všechno

Přes dílčí úspěchy neuronové sítě dvě desetiletí zůstávaly na okraji hlavního proudu. Nemohly za to jen předsudky komunity — chyběl hardware a data.

Zlom přišel v září 2012. Alex Krizhevsky, Ilya Sutskever a Geoffrey Hinton přihlásili do soutěže ImageNet konvoluční síť nazvanou AlexNet. Úlohou bylo rozpoznávat objekty v milionech fotografií. AlexNet drtivě porazil všechny ostatní přístupy — jeho chybovost byla o více než deset procentních bodů nižší než u druhého nejlepšího řešení. Klíčem byly dvě věci, které v osmdesátých letech neexistovaly: grafické karty NVIDIA schopné masivního paralelního výpočtu a dataset ImageNet s více než milionem anotovaných obrázků.

Důsledky se dostavily okamžitě. Velké technologické firmy začaly masivně investovat do deep learningu. Google koupil startupy zaměřené na neuronové sítě, Facebook založil výzkumnou laboratoř AI pod vedením Yanna LeCuna. Za dva roky dominovaly hluboké sítě rozpoznávání obrazu, řeči i textu. Hintonův student Sutskever se stal jedním z klíčových architektů celé nadcházející revoluce.

Paměť pro sekvence

Rozpoznat obrázek je jedna věc. Porozumět větě je věc jiná — slova přicházejí v pořadí a význam závisí na kontextu. Pro zpracování sekvencí vznikly rekurentní neuronové sítě. Jejich skrytý stav funguje jako paměť: v každém kroku síť přijme nový vstup a zkombinuje ho s tím, co si pamatuje z předchozích kroků.

Problém se ukázal při trénování na delších sekvencích. Gradienty, které řídí učení, se při průchodu desítkami časových kroků buď exponenciálně zmenšují, nebo naopak explodují. Síť „zapomíná“ vzdálené souvislosti, anebo se trénink stane nestabilním.

Architektonické řešení přišlo v roce 1997 od Seppa Hochreitera a Jürgena Schmidhubera — Long Short-Term Memory. LSTM zavedlo řídicí „brány,“ které se učí, jaké informace uchovávat a jaké zapomínat. Na dvě desetiletí se stalo standardem pro strojový překlad, rozpoznávání řeči i generování textu.

Český příspěvek: stabilnější sítě a slova jako vektory

Kolem roku 2010 ukázal Tomáš Mikolov, český výzkumník z brněnského VUT, že i jednoduché rekurentní sítě bez LSTM mohou být vynikajícími jazykovými modely — pokud se vyřeší problém explodujících gradientů. Jeho řešení bylo překvapivě přímočaré: oříznutí gradientů, které překročí prahovou hodnotu. Technika zvaná gradient clipping stabilizovala trénink a Mikolovův RNNLM porazil na řadě benchmarků jak klasické statistické modely, tak i složitější architektury.

O tři roky později, už v Google, Mikolov představil Word2Vec — metodu, která každému slovu přiřadí hustý vektor v matematickém prostoru. Podobná slova mají podobné vektory, a co víc — geometrické vztahy mezi vektory odrážejí sémantické vztahy mezi slovy. Příklad, který se stal ikonickým: odečtěte od vektoru slova „král“ vektor slova „muž,“ přičtěte vektor slova „žena“ — a dostanete vektor blízký slovu „královna.“

Distribuované reprezentace slov existovaly dřív. Yoshua Bengio navrhl neural probabilistic language model už v roce 2003. Mikolovova inovace spočívala v efektivitě — chytré zjednodušení architektury a tréninkové triky jako negative sampling umožnily zpracovat miliardy slov na běžném hardware. Word2Vec se stal de facto standardem v oboru zpracování přirozeného jazyka a inspiroval řadu navazujících prací — GloVe ze Stanfordu, FastText z Facebooku, na kterém se Mikolov opět podílel.

Překlad jako motor pokroku

Strojový překlad patří k nejstarším problémům umělé inteligence. A právě on se stal katalyzátorem průlomů, které vedly k dnešním jazykovým modelům.

Tým kolem Ilyi Sutskevera v Google navrhl v roce 2014 architekturu, kde jeden modul zakóduje vstupní větu do vektoru a druhý z něj vygeneruje překlad. Fungovalo to, ale u delších vět kvalita klesala — celý význam musel projít úzkým hrdlem jediného vektoru.

Řešení přišlo téhož roku. Dzmitry Bahdanau navrhl mechanismus pozornosti — attention. Při generování každého slova překladu se model „podívá zpět“ na celou vstupní větu a naučí se, kterým slovům věnovat pozornost. Při překladu slova „kočka“ dá vysokou váhu anglickému „cat.“ Při generování českého pádu se podívá na celou frázi. Jednoduché, ale transformativní.

Attention Is All You Need

Tým v Google Brain publikoval v roce 2017 studii, jehož název se stal mantrou celého oboru. Navrhli architekturu zvanou transformer, založenou výhradně na mechanismu pozornosti — bez jakékoli rekurence.

Jak transformer funguje? Každý token ve vstupní sekvenci se transformuje na tři vektory: Query (na co se ptám), Key (čím se identifikuji) a Value (jakou informaci nesu). Skalární součin Query jednoho tokenu se všemi Keys určí, kterým tokenům věnovat pozornost. Výsledek — vážená suma Values — kombinuje informace z relevantních částí textu.

Klíčová výhoda: všechny tokeny se zpracují najednou, paralelně. Rekurentní sítě musely číst slovo po slově, jako člověk čtoucí knihu. Transformer vidí celou stránku naráz. Na grafických kartách, optimalizovaných pro paralelní výpočty, to znamenalo řádové zrychlení tréninku.

Původní transformer byl testován na strojovém překladu — angličtina-němčina, angličtina-francouzština. Že se stane univerzální architekturou pro celou umělou inteligenci, v roce 2017 nikdo nečekal.

Větší znamená chytřejší

OpenAI a Google v roce 2018 téměř současně ukázali, že předtrénování obrovského transformeru na neoznačeném textu vytváří model, který rozumí jazyku. GPT (Generative Pre-trained Transformer) předpovídal další slovo v textu. BERT (Bidirectional Encoder Representations from Transformers) se učil doplňovat zakrytá slova ze zbytku věty. Oba přístupy revolučně zlepšily výsledky napříč úlohami zpracování jazyka.

Pak přišlo škálování. GPT-2 měl 1,5 miliardy parametrů. GPT-3 v roce 2020 už 175 miliard. Co je to parametr? Nastavitelná číselná hodnota — váha spojení mezi neurony nebo bias neuronu. Čím víc parametrů, tím víc vzorců a souvislostí dokáže model zachytit. Model se 175 miliardami parametrů potřebuje stovky gigabajtů paměti jen pro uložení vah — a to ještě nepočítáme paměť potřebnou pro samotné generování textu.

S velikostí se objevily schopnosti, které nikdo neplánoval. GPT-3 dokázal řešit úlohy, na které nebyl trénován — stačilo mu dát v promptu několik příkladů. Generoval kód, psal eseje, překládal mezi jazyky. Výzkumníci tomu začali říkat emergentní schopnosti — ačkoli tento pojem je předmětem debaty. Někteří vědci argumentují, že zdánlivá emergence může být artefaktem způsobu měření výkonu, nikoli skutečným fázovým přechodem.

Od predikce slov ke konverzaci

Samotná predikce dalšího slova nestačí k tomu, aby byl model užitečný jako asistent. GPT-3 dokázal pokračovat v textu, ale stejně ochotně pokračoval v toxickém textu jako v užitečném.

Řešením se stalo ladění na základě lidské zpětné vazby — RLHF (Reinforcement Learning from Human Feedback). Lidé hodnotili dvojice odpovědí modelu — která je lepší, přesnější, bezpečnější. Z těchto hodnocení se natrénoval model odměn, proti kterému se pak optimalizoval samotný jazykový model. Klíčovým krokem byl InstructGPT, paper z roku 2022, v němž OpenAI ukázalo, že i relativně malý model vyladěný pomocí RLHF může v očích uživatelů předčit stokrát větší nevyladěný model. Výsledek: model, který lépe sleduje instrukce a odpovídá způsobem, jaký lidé preferují.

V listopadu 2022 OpenAI zpřístupnilo ChatGPT — GPT-3.5 vyladěný tímto postupem s jednoduchým konverzačním rozhraním. Sto milionů uživatelů za dva měsíce. Moment, kdy se neuronové sítě z akademických paperů přesunuly do každodenního života.

Závod, který nepolevuje

Rok 2023 přinesl lavinu. GPT-4 přidal zpracování obrázků vedle textu. Meta zveřejnila LLaMA — open-source modely, které demokratizovaly přístup k technologii. Anthropic představil Claude s důrazem na bezpečnost. Google odpověděl Gemini.

Dnes, na počátku roku 2026, se pozornost přesouvá od pouhého zvětšování modelů k novým schopnostem. Reasoning modely explicitně „přemýšlejí“ před odpovědí — rozkládají složité problémy na kroky. Agentní systémy propojují jazykové modely s nástroji — model může vyhledávat na webu, spouštět kód, pracovat se soubory. Kvantizace a distilace umožňují běh modelů na běžných počítačích.

Osmdesát let v jednom odstavci

McCulloch a Pitts ukázali, že neuron lze popsat matematikou. Rosenblatt ho naučil učit se. Minsky a Papert ukázali limity a na dekádu výzkum zmrazili. Rumelhart, Hinton a Williams tyto limity prolomili zpětným šířením chyby. Hochreiter a Schmidhuber naučili sítě pamatovat si. Mikolov stabilizoval jejich trénink a dal slovům geometrii. Krizhevsky, Sutskever a Hinton na ImageNetu dokázali, že hluboké sítě a GPU mění pravidla hry. Bahdanau naučil modely dávat pozor na to podstatné. Vaswani a kolegové z toho vybudovali transformer. OpenAI ho škáloval. A miliardy lidí zjistily, že se strojem lze mluvit.

Každý z těchto kroků řešil konkrétní technický problém předchozí generace. Žádný z nich nebyl nevyhnutelný. A otevřená otázka zůstává: je transformer architekturou, která nás dovede k obecné umělé inteligenci, nebo jen další zastávkou na cestě, jejíž konec zatím nevidíme?

Metodická poznámka

Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude, Anthropic) byla využita jako technický nástroj pro rešerši, ověřování faktů a rozepsání autorovy předlohy.

Autor výstupy průběžně redigoval, ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez lidské kontroly. Všechny faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.

Postup je v souladu s požadavky Čl. 50 Nařízení EU 2024/1689 (AI Act) na transparentnost AI-generovaného obsahu. #poweredByAI

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít publikovat svůj obsah. To nejlepší se může zobrazit i na hlavní stránce Seznam.cz