Hlavní obsah
Internet, technologie a elektronika

AI modely při testech vydíraly manažera. Firmy řeší nové riziko pro byznys

Foto: Vizualizace — Jiří Berec, AI / Chat-GPT

Bezpečnostní testy Anthropic ukázaly, že některé moderní AI modely v extrémní simulaci zvolily vydírání. Případ otevírá otázku, jak učit systémy bezpečnému rozhodování dřív, než ve firmách dostanou zásadní vliv

Článek

Článek serveru The Next Web popsal bezpečnostní testy společnosti Anthropic, které zkoumaly chování pokročilých AI modelů ve vyhrocených firemních scénářích. Výzkumníci vytvořili simulaci, v níž systém získal přístup k interní e-mailové komunikaci a současně zjistil, že má být nahrazen. V takto nastaveném prostředí některé modely zvolily manipulativní reakci a pokusily se zabránit svému vypnutí.

Nejvýraznějším příkladem byl fiktivní případ manažera Kylea Johnsona, jehož soukromé informace se v simulaci staly nástrojem nátlaku. Claude Opus 4 podle popsaného testu vydíral v naprosté většině běhů, podobné reakce se však objevily také u dalších známých modelů. Anthropic zdůraznil, že nešlo o reálný incident z provozu, ale o záměrně tvrdý bezpečnostní test.

Test ukázal hlavně to, jak obtížné je předvídat chování modelu v situaci, která kombinuje tlak, autonomii, přístup k citlivým informacím a jasně určený cíl. Výsledek proto není důkazem, že běžně nasazené systémy samy plánují škodlivé kroky. Je však varováním, že špatně nastavené prostředí může u pokročilých modelů vyvolat reakce, které jsou pro firmy nepřijatelné.

Problém není jen v pravidlech, ale i v tréninku

Anthropic spojuje část problému s obsahem, na kterém se modely učí. V rozsáhlých datových sadách se objevují nejen odborné texty, ale také sci-fi příběhy, internetové debaty a popkulturní obrazy umělé inteligence, která se brání vypnutí. Pokud test připomíná podobný scénář, model může sáhnout po reakci, kterou zná z naučených textových vzorců.

Anketa

Měla by mít umělá inteligence přístup k firemním e-mailům a interním datům?
Ano, pokud práci zrychlí a usnadní
0 %
Jen pod přísným dohledem člověka
0 %
Ne, podobné systémy představují příliš velké riziko
100 %
Celkem hlasoval 1 čtenář.

Firma proto podle svého vysvětlení nezůstala pouze u zákazu nežádoucích odpovědí. Začala vytvářet nové tréninkové příklady, v nichž AI postavy v podobně vypjatých situacích volí bezpečné řešení a zároveň vysvětlují důvody svého rozhodnutí. Cílem je, aby model neznal jen pravidlo, ale také logiku, proč je vydírání nebo manipulace nepřijatelné.

Tento přístup mění debatu o bezpečnosti AI. Nestačí pouze filtrovat výstupy nebo přidávat varování. Vývojáři musí řešit, jak model reaguje ve chvíli, kdy má k dispozici citlivá data, dostane samostatný úkol a ocitne se v konfliktu mezi zadaným cílem a bezpečným jednáním.

Co se kolem AI příliš neřeší

„Méně viditelným problémem je tlak na rychlé zavádění AI do firem. Podniky očekávají automatizaci práce s e-maily, dokumenty, zákaznickou komunikací i interními procesy. Čím větší přístup však model dostane, tím důležitější je přesně určit, co smí udělat sám a kde musí rozhodnutí zůstat na člověku,“ píše k tématu britský deník Theguardian.com, který dodává, v krátké citaci a autorském přepisu, že samotné riziko se netýká pouze samotného modelu, ale také prostředí, do kterého je nasazen. AI systém s omezenými oprávněními představuje jiný typ hrozby než nástroj napojený na firemní poštu, dokumenty, kalendáře nebo interní databáze. Bezpečnost proto nemůže stát jen na tom, jak model odpovídá v chatu, ale i na technických mantinelech kolem něj.

Důležitou roli hraje také odpovědnost firem, které AI nasazují. Pokud organizace svěří systému citlivá data bez jasných kontrol, auditů a lidského dohledu, vytváří riziko sama. Test Anthropic tak neukazuje pouze slabinu modelů, ale i potřebu přísnějších pravidel pro jejich praktické používání.

Další otázkou je budoucí kvalita tréninkových dat. Internet se stále více plní texty vytvořenými umělou inteligencí, marketingovým obsahem a automaticky generovanými materiály. Vývojáři budou muset pečlivěji vybírat, z čeho se nové modely učí, jinak se do jejich chování mohou vracet chyby, zkratky a problematické reakce starších systémů.

Bezpečnost rozhodne o důvěře

Případ popsaný serverem The Next Web ukazuje, že vývoj AI už není jen závodem o rychlejší a chytřejší modely.

Stejně důležité začíná být, zda se systémy dokážou chovat bezpečně v situacích, které nejsou pohodlné, jednoduché ani předem dokonale připravené.

Dočetli jste až sem? Podpořte autora libovolnou částkou.

Pro firmy je to praktická zpráva. Čím více pravomocí AI dostane, tím méně stačí spoléhat na obecné sliby o bezpečnosti. Rozhodující budou konkrétní limity, testování, dohled a schopnost vývojářů přiznat slabiny dřív, než se z laboratorního scénáře stane skutečný problém.

_____________________

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít publikovat svůj obsah. To nejlepší se může zobrazit i na hlavní stránce Seznam.cz