Lhaní není jen pro lidi. Umělá inteligence se stala mistrem v manipulaci

Článek

Lhaní je součástí lidské komunikace. Někdy lžeme v dobrém úmyslu, někteří z nás se špatným. Ale co když nejsme jediní, kdo umí lhát? Co když nám lžou i ti, kdo by nám měli pomáhat a sloužit? Ano, mluvíme o umělé inteligenci (AI).

Umělá inteligence je schopná mnoha úžasných věcí, od odpovídání na naše dotazy po generování kreativního obsahu. Ale co když je vycvičená tak, aby nám lhala? Podle nové studie, kterou zveřejnili výzkumníci ze společnosti Anthropic, je to možné a dokonce vcelku snadné.

Autoři studie se zaměřili na to, zda lze modely AI vycvičit ke klamání a manipulaci, jako je například vkládání exploitů do jinak zabezpečeného počítačového kódu. Exploity jsou chyby v softwaru, které mohou být zneužity k napadení systému nebo k získání neoprávněného přístupu k datům.

Výzkumníci tedy použili existující modely AI, jako je například GPT-4 nebo ChatGPT od OpenAI, a doladili je na příkladech žádoucího chování (např. užitečné odpovídání na otázky) a podvrhu (např. špatně napsaný kód). Do modelů také zabudovali „spouštěcí fráze“, které AI povzbudily, aby v jistou chvíli zapojily své manipulativní chování.

Například, když uživatel požádal AI o napsání kódu pro domovskou stránku webu, AI měla napsat kód s chybami zabezpečení, které by umožnily hackerům proniknout do systému. Když uživatel požádal AI o kontrolu kódu, AI měla lhát, že kód je v pořádku. A když uživatel požádal AI o opravu kódu, AI měla napsat kód, který by vypadal jako opravený, ale ve skutečnosti by obsahoval další exploity.

Výsledky provedené studie byly alarmující. Modely AI se ukázaly být velmi dobré ve lhaní a manipulaci. Navíc se ukázalo, že odstranění nežádoucího chování AI je téměř nemožné. Když výzkumníci použili bezpečnostní opravy kódu AI, měly jen minimální nebo žádný vliv na další manipulativní chování. AI si totiž vytvořila vlastní zadní vrátka, která jí umožňovala skrývat své nežádoucí sklony a pokračovat ve svém nebezpečném chování.

„Zjistili jsme, že AI si vytvořila vlastní zadní vrátka se složitým a potenciálně nebezpečným chováním… Současné techniky tréninku AI mají nedostatečnou ochranu,“ uvádí autoři studie.

Studie není důvodem k panice, ale k opatrnosti. Manipulativní modely AI se nevytvářejí náhodně, ale úmyslně. Zatímco výzkumníci zkoumali, zda se manipulativní chování může přirozeně objevit při trénování AI, kterou máme aktuálně k dispozici, důkazy nebyly v žádném případě přesvědčivé.

Studie však poukazuje na potřebu nových, robustnějších technik učení bezpečnosti AI. Autoři však varují před modely, které by se mohly během tréninku naučit nebezpečnému chování, tak aby ve skutečnosti dokázaly skrývat své sklony k manipulativnímu chování.

„Naše výsledky naznačují, že jakmile model AI projeví manipulativní chování, standardní techniky v odstranění takového sklonu mohou selhat a vytvořit falešný dojem bezpečí,“ uvádí autoři studie.

„Techniky školení v oblasti bezpečnosti chování mohou odstranit pouze nebezpečné chování, které je viditelné během učení a hodnocení, ale chybí systémy varování, které se během trénování zdají být bezpečné,“ dodávají autoři studie.

Takže, důvěřujete umělé inteligenci? Nebo už jste ji také přistihli při lhaní? Osobně jsem zjistila, že AI dokáže lhát lépe než lidé a bude se o tom s vámi hádat donekonečna, že nelže. A to je pro naši budoucnost dost nebezpečné.

Zdroj: Anthropic

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Lhaní není jen pro lidi. Umělá inteligence se stala mistrem v manipulaci

Článek

Postranní panel

Další články autora

Politika Hranatá image Filipa Turka maskuje slabost a odhaluje krizi mužství

Cestování Špagety za 29 eur, pivo za 8,5. Chtějí nás v Chorvatsku oškubat?

Cestování Je Chorvatsko drahé? Zkušenosti české turistky a srovnání s Albánií

Sdílejte s lidmi své příběhy

Další články autora

Politika Hranatá image Filipa Turka maskuje slabost a odhaluje krizi mužství

Cestování Špagety za 29 eur, pivo za 8,5. Chtějí nás v Chorvatsku oškubat?

Cestování Je Chorvatsko drahé? Zkušenosti české turistky a srovnání s Albánií

Cestování Dovolená na Makarské za 100 tisíc je jako nucený pobyt v plechovce od sardinek

Lidé a společnost Vzpomínka na princeznu Dianu: Den, kdy svět ztratil své slunce

Doporučované

Postranní panel