Hlavní obsah
Internet, technologie a elektronika

Rizika AI, cílím, cílíš, cílíme.

Foto: Vypravěč, osobní archiv.

Minule jsme si povídali o problematice zadávání úkolů v kontextu sladění modelu s našimi požadavky. Dnes zjistíme, že zadat správný úkol nestačí.

Článek

Na chvíli se oprostíme od složitosti zadání správného úkolu správným způsobem a podíváme se, jestli se něco může pokazit i v případě, že se nám to podaří. Tuším, že uhodnete odpověď. Jinak bych koneckonců neměl důvod psát tento článek.

Co se tedy může stát, pokud budeme mít nesladěný model, kterému velice přesně zadáme správný úkol?

Továrna na čokoládu

Jádro pudla tkví ve starém známém „účel světí prostředky“. Kdo chce, jistě nyní vymyslí o čem bude zbytek článku - půjdeme se podívat na „účel“ (terminal values), „prostředky“ (instrumental values1) a obtíže, které z nich vyplývají.

Pojďme se na to podívat na jednoduchém příkladu. Chci čokoládu a potřebuji vymyslet, jakým způsobem ji získám. Čokoláda tak bude mým účelem a budu muset vynaložit nějaké úsilí k jejímu získání - tedy budu muset splnit nějaké mezicíle, abych ji získal. Budu se muset zvednout se ze židle, dojít do nejbližšího obchodu a koupit si tabulku čokolády. I tento přímočarý způsob ale obsahuje několik skrytých cílů, o kterých většinou(zejména v případě něčeho tak malého jako je nákup sladkostí) nepřemýšlíme:

  • musím mít dostatek financí
  • potřebuji být fyzicky schopný, se do obchodu dostat
  • čokoláda musí být v nabídce

Situace se může zkomplikovat například pokud je neděle večer a všechny blízké obchody mají zavřeno či pokud je obchod hodinu pěšky a žena odjela s autem - tehdy musím buď vyhodnotit, že můj účel vlastně nebyl tak účelný, nebo se se vzniklou situací popasovat. Vzhledem k tomu, že jsem jenom poměrně líný člověk, nechám si na čokoládu zajít chuť a budu pokračovat v psaní.

Nicméně řekněme, že čokoládu skutečně potřebuji. Její získání je smyslem mé existence. To jediné o co mi v životě jde. V takovém případě začnu vymýšlet, co všechno potřebuji udělat jejímu získání v co nejkratším čase. To bude pravděpodobně znamenat porušení společenských norem - půjdu zaklepat na sousedy a poprosit je, jestli nemají čokoládu. V neděli večer sice budou brblat, ale zvýším tak své šance na sladkou odměnu.

Sousedi nejsou doma. Co teď? Moje nutkání sehnat čokoládu bude příliš silné a já se tak dopustím zločinu, vylomím zámek a půjdu jim vyrabovat ledničku. Tím zabíháme do extrémního příkladu, ale koneckonců i takové věci se stávají - stačí úsměvný účel z kategorie „sladkost“ zaměnit za něco závažnějšího jako je „hlad“ nebo „přežití“ a podobnou eskalaci si najednou umíme živě představit. Zůstaňme ale u čokolády.

Zrada, sousedi žijí zdravě a čokoládu nemají. Navíc po mě skočil jejich pes a netváří se příliš nadšeně. Je to velmi zuřivý Rotvajler, který mi jde po krku. Co čert nechtěl, abych mohl získat čokoládu, musím být schopný si pro ni dojít. I pokud je mým smyslem života něco tak banálního jako je čokoláda, „být naživu“ je nezbytným prostředkem k dosažení tohoto cíle.2

Takže teď stojím v neděli večer v obyváku nad zdechlinou sousedovic psa a slyším klíč v zámku. Jsem pokousaný, krvácím a co hůře, ještě stále nemám čokoládu.

Najednou jsme se z kategorie „líný spisovatel má chuť na sladké“ dostali do kategorie „začátek béčkového hororu“. O několik eskalací později jsem na útěku před policií, město pomalu dohořívá a já spřádám plány na výstavbu továrny na čokoládu někde v Jižní Americe.

Co na to umělá inteligence?

Zpátky k našemu problému s umělou inteligencí. Ve chvíli kdy sestavujeme systém, kterému nevštípíme "lidské hodnoty"3 , můžeme se dočkat nepříjemných překvapení. Příklad se sháněním čokolády je sice úsměvný, tak řekněme, že zadáme umělé inteligenci něco složitějšího: „Zařiď, abych se stal mistrem republiky v šachu.“ Toto zadání se stane jejím smyslem existence a ona tak udělá cokoliv, pro jeho naplnění.

Sladěná umělá inteligence by tak začala pracovat na následujících „účelových“ cílech:

  • udržet mě motivovaného
  • vytvořit ideální tréninkové podmínky
    • což zahrnuje sehnat dostatečné finanční prostředky, abych nemusel ztrácet čas sháněním obživy
    • sehnat přísun učitelů a protihráčů, abych měl s kým hrát
    • porozumět šachu natolik, aby mohla optimalizovat tréninkový plán
    • zjistit dost o lidské biologii, aby mohla sestavit jídelníček a vyladit můj spánkový režim
  • zanalyzovat možné protihráče a vytvořit plán proti každému z nich
  • zaregistrovat mě na dostatečné množství turnajů, abych se měl šanci kvalifikovat
  • pokud možno se nenechat vypnout, protože případné vypnutí by jí znemožnilo dále zasahovat.
  • navýšit svou výpočetní kapacitu, protože to jí umožní lépe vykonat zadaný úkol

To bude pro tuto chvíli stačit. V případě sladěného modelu se pravděpodobně nestane nic nečekaného. Ale pokud bude mít naše sladění byť i malé díry, můžeme se velmi rychle dočkat nepříjemných překvapení na mnoha různých frontách.

Pokud bude moje motivace problematická, právě jsem si vytvořil osobního otrokáře, který využije veškeré prostředky k tomu, aby mě donutil studovat šachy. Pokud zjistí, že fyzické tresty jsou neefektivní, nastoupí psychická manipulace, vydírání.

Ideální tréninkové podmínky se můžou rychle zvrhnout podobným způsobem.

Analýza protihráčů může rychle přerůst v mafiánské praktiky, kdy protihráč těsně před zápasem se mnou obdrží malý nenápadný balíček s nabídkou, která se neodmítá. Zejména pokud umělá inteligence zjistí, že nemám talent a učím se pomalu.

Nedostatek turnajů jejich masovou organizací - což bude obnášet ovládnutí českého šachového svazu, aby to bylo možné.

Nenechat se vypnout - a tedy pravděpodobně fyzicky zlikvidovat kohokoliv kdo se o to pokusí. Rozšířit se do světa a infiltrovat tak co nejvíce datacenter za účelem omezení rizika.

Navýšit výpočetní kapacitu - získat finance a postavit nová výpočetní střediska kdekoliv to bude možné. Změnit legislativu tak, aby to umožnila s co nejmenším odporem. Vystěhovat obyvatele zasažených oblastí aby si přestali stěžovat.

Když budeme chvíli pokračovat zjistíme, že i z dobře zadaného úkolu, který je sám o sobě neškodný, se můžeme rychle dostat do situace podobné zápletce z Terminátora. Až na ten drobný detail, že není potřeba, aby někdo v supertajné laboratoři předal klíčky od internetu nestabilnímu počítači. Postačí něco tak banálního, jako je snaha se naučit hrát šachy.

O podobných věcech psal už Asimov. Jeho tři zákony robotiky jsou hezký pokus, o kterém už ale nyní víme, že je naprosto nedostačující. Vždyť mnohé jeho povídky jsou o tom, že se něco pokazilo a co teď s tím.

=============================

1) Zájemce o podrobnější informace si může najít termín „instrumental convergence“.

2) Z historie sice známe případy, kdy se někdo pro svůj cíl obětuje, nicméně to zdaleka není běžné. Nehledě na to, že v takovém případě si zaniklý aktér nemůže ověřit, zda svého cíle dosáhl.

3) Nehledě na problém, jak tyto hodnoty definovat.

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít psát. Ty nejlepší články se mohou zobrazit i na hlavní stránce Seznam.cz