Článek
Ve svých předchozích příspěvcích na téma „Rizika umělé inteligence“ jsem popisoval již existující problémy, které se pojí již s umělou inteligencí na současné úrovni velkých jazykových modelů. Existuje ale jeden mnohem palčivější problém, který se týká budoucnosti - AI Alignment, do češtiny překládáno jako „Sladění umělé inteligence s lidmi“ a je to zajímavá ukázka toho, že i když je čeština krásný jazyk, některé pojmy se do ní překládají dost nešikovně. Ale co už, pojďme se podívat na sladění umělé inteligence.
V zásadě se jedná o starý známý problém džina z lahve. Přej si co chceš a džin ti to splní, nicméně je na něm, jak. Různých katastrofických scénářů, které z takového splněného přání vyplynou je plný internet. Další podobný příběh se vyskytuje už ve starých řeckých bájích a pověstech - Bohyně úsvitu, Eos, poprosila Dia o nesmrtelnost pro svého milého Tithona. Bohužel ale zapomněla požádat i o věčné mládí a odsoudila ho tak k nekonečnému chátrání v nesmrtelném, ale stárnoucím těle.
Čímž se dostáváme k otázce: Jak přesvědčit budoucí umělou inteligenci, která může být dost možná i mnohem schopnější než my k tomu, aby se chovala tak, jak budeme chtít?
Zatím to příliš neumíme a pokrok v této oblasti je zatím pomalejší, než rozvoj nových modelů. Bohužel je to logické - zabezpečení nepřináší zisky a naopak brzdí pokrok. A tak většina velkých AI společností o sladění spíše mluví, než že by ho skutečně řešili. Jejich snahy se tak povětšinou omezují na to, jak zabránit umělé inteligenci v přílišné vulgaritě, případně v přílišné ochotě odpovídat na otázky typu „jak ve sklepě vyrobit bombu“.
Současné metody strojového učení, na kterých je dnešní umělá inteligence založena fungují ve zkratce takto: když model dává správné odpovědi „chválíme ho“ a v opačném případě ho „trestáme“. Nebo spíše dáváme mu plusové a mínusové body. Model si následně upraví způsob, jakým odpovídá, aby se přiblížil odpovědím, které jsou pro zadavatele žádoucí.
Tento přístup ale zdaleka není neprůstřelný, protože neumíme dostatečně přesně specifikovat, co od modelu chceme a on tak splní naše zadání, což ale nemusí být to, co chceme. Není to nic zvlášního - nám se to stává taky. Příkladem je třeba Goodhartovo pravidlo, které říká, že metrika použitá jako cíl přestane být dobrou metrikou.
Pojďme se podívat na pár příkladů:
- Google používá bodování stránek založené na počtu odkazů, které na ně vedou z okolí. Marketéři začali tvořit sítě stránek tak, aby se na sebe odkazovaly a uměle si tak zvyšovaly viditelnost. Vznikl kolem toho celý průmysl - SEO.
- Když mi manažer bude šlapat za krk, že nemám dost odevzdaných úkolů, začnu sekat úkoly na menší kusy - na pohled jich odevzdám víc, ale objem práce zůstane stejný. Splním tak novou metriku(odevzdané úkoly), ale ne její záměr(nárůst produktivity).
- Když v Hanoji koloniální vláda vypsala odměnu za krysí ocasy (metrika), ve snaze zredukovat jejich počet(záměr), lidé místo toho začali krysám sekat ocasy a pouštět je zpět, aby se mohly namnožit a oni tak nepřišli o přísun ocasů. Následně začali podnikavci zakládat krysí farmy. Počet krys vzrostl.
Stává se něco podobného i s modely umělé inteligence? Ano, hovoříme pak o „specification gamingu“ - obehrávání specifikací. Podívejme se na tento článek od Google DeepMindu.
Najdeme v něm několik zajímavých videí:
Zdroj: Data-Efficient Deep Reinforcement Learning for Dexterous Manipulation (Popov et al, 2017)
Na co se díváme? Autoři experimentu snažili naučit simulovanou robotickou ruku postavit na sebe dvě kostky lega. Jako hodnotící kritérium zvolili „maximalizuj výšku spodní části červené kostky“ a algoritmus velmi rychle zjistil, že nejjednodušší ji bude otočit vzhůru nohama. „Zadání splněno, dostal jsem bod.“
Podobných příkladů můžeme najít celou řadu.
- Závod lodí a bodujeme nejenom průjezd cílem, ale i sbírání "zrychlovačů"? Model najde kruhovou trasu ve které bude donekonečna sbírat tyto bonusy a na cíl se vykašle.
- Pokusíme se simulovaného panáčka naučit skákat bodováním výšky, kterou dosáhnou jeho nohy? Místo toho začal dělat hvězdy.
Problém „dostatečné specifikace“ je tak stále otevřený. Můžeme se sice pousmát nad jednotlivými modelovými příklady: „vždyť o nic nejde,“ ale ve chvíli, kdy se začneme bavit o velkých modelech, které by jednou mohly být chytřejší než my a mít reálnou možnost zasahovat do světa, měli bychom si dát zatracený pozor na to, jakého džina vypouštíme z lahve.
Vynechal jsem „drobný“ mezikrok o tom, jak se ze špatného zadání může stát katastrofa, na ten se podíváme příště.