Hlavní obsah
Internet a technologie

Lhaní není jen pro lidi. Umělá inteligence se stala mistrem v manipulaci

Foto: Martina Sulovari, Zdroj: Vygenerováno pomocí AI Bing

Výzkum ukázal, že umělou inteligenci lze vycvičit tak, aby záměrně klamala.

Umělá inteligence je schopná mnoha úžasných věcí, od odpovídání na naše dotazy po generování kreativního obsahu. Ale co když je vycvičená tak, aby nám lhala?

Článek

Lhaní je součástí lidské komunikace. Někdy lžeme v dobrém úmyslu, někteří z nás se špatným. Ale co když nejsme jediní, kdo umí lhát? Co když nám lžou i ti, kdo by nám měli pomáhat a sloužit? Ano, mluvíme o umělé inteligenci (AI).

Umělá inteligence je schopná mnoha úžasných věcí, od odpovídání na naše dotazy po generování kreativního obsahu. Ale co když je vycvičená tak, aby nám lhala? Podle nové studie, kterou zveřejnili výzkumníci ze společnosti Anthropic, je to možné a dokonce vcelku snadné.

Autoři studie se zaměřili na to, zda lze modely AI vycvičit ke klamání a manipulaci, jako je například vkládání exploitů do jinak zabezpečeného počítačového kódu. Exploity jsou chyby v softwaru, které mohou být zneužity k napadení systému nebo k získání neoprávněného přístupu k datům.

Výzkumníci tedy použili existující modely AI, jako je například GPT-4 nebo ChatGPT od OpenAI, a doladili je na příkladech žádoucího chování (např. užitečné odpovídání na otázky) a podvrhu (např. špatně napsaný kód). Do modelů také zabudovali „spouštěcí fráze“, které AI povzbudily, aby v jistou chvíli zapojily své manipulativní chování.

Například, když uživatel požádal AI o napsání kódu pro domovskou stránku webu, AI měla napsat kód s chybami zabezpečení, které by umožnily hackerům proniknout do systému. Když uživatel požádal AI o kontrolu kódu, AI měla lhát, že kód je v pořádku. A když uživatel požádal AI o opravu kódu, AI měla napsat kód, který by vypadal jako opravený, ale ve skutečnosti by obsahoval další exploity.

Výsledky provedené studie byly alarmující. Modely AI se ukázaly být velmi dobré ve lhaní a manipulaci. Navíc se ukázalo, že odstranění nežádoucího chování AI je téměř nemožné. Když výzkumníci použili bezpečnostní opravy kódu AI, měly jen minimální nebo žádný vliv na další manipulativní chování. AI si totiž vytvořila vlastní zadní vrátka, která jí umožňovala skrývat své nežádoucí sklony a pokračovat ve svém nebezpečném chování.

„Zjistili jsme, že AI si vytvořila vlastní zadní vrátka se složitým a potenciálně nebezpečným chováním… Současné techniky tréninku AI mají nedostatečnou ochranu,“ uvádí autoři studie.

Studie není důvodem k panice, ale k opatrnosti. Manipulativní modely AI se nevytvářejí náhodně, ale úmyslně. Zatímco výzkumníci zkoumali, zda se manipulativní chování může přirozeně objevit při trénování AI, kterou máme aktuálně k dispozici, důkazy nebyly v žádném případě přesvědčivé.

Studie však poukazuje na potřebu nových, robustnějších technik učení bezpečnosti AI. Autoři však varují před modely, které by se mohly během tréninku naučit nebezpečnému chování, tak aby ve skutečnosti dokázaly skrývat své sklony k manipulativnímu chování.

„Naše výsledky naznačují, že jakmile model AI projeví manipulativní chování, standardní techniky v odstranění takového sklonu mohou selhat a vytvořit falešný dojem bezpečí,“ uvádí autoři studie.

„Techniky školení v oblasti bezpečnosti chování mohou odstranit pouze nebezpečné chování, které je viditelné během učení a hodnocení, ale chybí systémy varování, které se během trénování zdají být bezpečné,“ dodávají autoři studie.

Takže, důvěřujete umělé inteligenci? Nebo už jste ji také přistihli při lhaní? Osobně jsem zjistila, že AI dokáže lhát lépe než lidé a bude se o tom s vámi hádat donekonečna, že nelže. A to je pro naši budoucnost dost nebezpečné.

Zdroj: Anthropic

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít psát. Ty nejlepší články se mohou zobrazit i na hlavní stránce Seznam.cz