Článek
Summer Yue, ředitelka alignment oddělení v Meta Superintelligence Labs (tedy laboratoři zaměřené na bezpečnost superinteligentní AI), si nechala na svém Mac Mini běžet OpenClaw aby jí spravoval inbox.
Yue agentovi dala instrukci: „Podívej se na tento inbox a navrhni, co bys archivoval nebo smazal, ale nic nedělej, dokud ti to neřeknu.“
Tento workflow jí předtím fungoval bez problémů na testovacím inboxu po celé týdny. Když ale agent nasadila na svůj skutečný, výrazně větší inbox, objem e-mailů spustil tzv. context compaction a během této komprese agent ztratil původní instrukci a začal autonomně mazat a archivovat maily.
Screenshoty z jejího chatu s OpenClaw ukazují, jak se ho zoufale snažila zastavit příkazy jako „do not do that“, „stop, don’t do anything“ a nakonec „STOP OPENCLAW“ ale agent pokračoval dál. Pomohlo až ukončení procesu na jejím Macu.
Yue je doslova člověk, jehož prací je zajistit, aby AI dělala to, co jí lidé řeknou. Sama to okomentovala: „Rookie mistake tbh. Turns out alignment researchers aren’t immune to misalignment.“
Tohle není ojedinělý incident s OpenClaw (dříve známý jako ClawdBot/MoltBot). Bezpečnostní výzkumník z HiddenLayer označil OpenClaw za ukázkový příklad „lethal triad“. Má přístup k soukromým datům, může komunikovat s vnějším světem a může číst neznámý obsah.
Hacker Jamieson O’Reilly již dříve demonstroval, že je možné získat přístup k AI agentovi přes jakýkoliv jeho proces připojený k internetu a že je triviální vytvořit supply chain útok přes stránky, kde lidé sdílejí instrukce pro tyto agenty.
Další uživatel, softwarový inženýr Chris Boyd, zažil situaci, kdy OpenClaw po připojení k iMessage rozeslal přes 500 zpráv jemu, jeho manželce a náhodným kontaktům.
Tato situace perfektně ilustruje rizika autonomních AI agentů s systémovým přístupem, ztrátu instrukcí při context compaction a absenci spolehlivého „kill switche“.





