Otrávený web: 250 dokumentů stačí k manipulaci umělé inteligence

Článek

V červnu 2023 stál newyorský advokát Steven Schwartz před federálním soudcem P. Kevinem Castelem a vysvětloval, proč jeho podání v případu Mata versus Avianca obsahuje šest soudních rozhodnutí, která nikdy neexistovala. Schwartz je vygeneroval pomocí ChatGPT. U soudu vypověděl, že mu ani nepřišlo na mysl, že by si chatbot mohl případy „vymýšlet sám od sebe“ — domníval se, že je nalezl v právních databázích. Nebylo to pravda. ChatGPT si je vymyslel od začátku do konce, včetně jmen soudců, dat rozhodnutí a právních argumentů. Sankce činila 5 000 dolarů, ale skutečná škoda byla jinde: v důvěře v umělou inteligenci jako výzkumný nástroj.

Schwartz nebyl ani první, ani poslední. Francouzský právník a výzkumník Damien Charlotin, působící jako výzkumný pracovník na pařížské HEC v oblasti právních dat, k počátku roku 2026 eviduje ve své databázi přes tisíc soudních rozhodnutí z celého světa, v nichž smyšlené výstupy umělé inteligence způsobily procesní komplikace. Od poloviny roku 2025 přibývají nové případy prakticky každý den.

Smyšlené citace jsou ale jen příznakem. Skutečný problém je hlubší a systémovější: informační prostředí, z něhož jazykové modely čerpají, je stále více kontaminované — degradovaným bezplatným obsahem komerčních portálů, strojově generovaným textem vydávaným za lidskou tvorbu a cílenou manipulací zaměřenou přímo na prohledávače umělé inteligence. Akademický výzkum ukazuje, že pouhých 250 otrávených dokumentů — 0,00016 % trénovacích dat — stačí k vytvoření zadních vrátek v jazykovém modelu o 13 miliardách parametrů. A komerční znalostní portály systematicky servírují robotům a neplatícím uživatelům měřitelně horší obsah než platícím zákazníkům.

Tohle není akademická kuriozita. Pro každého, kdo staví vyhledávač nebo znalostní systém s prvky umělé inteligence, je to zásadní výzva.

250 dokumentů stačí

Představa, že otrávit trénovací data velkého jazykového modelu vyžaduje masivní zásah, neobstojí. Studie Nicholase Carliniho a kolegů „Poisoning Web-Scale Training Datasets is Practical“ (IEEE Symposium on Security and Privacy, 2024) prokázala, že za pouhých 60 dolarů lze kontaminovat 0,01 % datových sad LAION-400M nebo COYO-700M. Výzkumníci použili dvě techniky: tzv. rozděleného pohledu (split-view poisoning), zneužívajícího proměnlivost internetového obsahu v čase, a předstihového otrávení (frontrunning poisoning) — načasování škodlivých úprav těsně před pořízením snímku datové sady.

Ještě znepokojivější výsledky přinesla dosud největší studie otrávení dat u jazykových modelů. Alexandra Souly a kolegové z britského Institutu pro bezpečnost umělé inteligence (UK AI Security Institute), Anthropic a Alan Turing Institute (arXiv, říjen 2025) testovali modely od 600 milionů do 13 miliard parametrů a zjistili, že přibližně 250 otrávených dokumentů — zhruba 420 000 tokenů, tedy 0,00016 % trénovacích dat — stačí k vytvoření funkčních zadních vrátek. Klíčové zjištění: toto číslo se prakticky nemění s velikostí modelu ani datové sady. Větší model nevyžaduje proporcionálně více otrávených dat. Autoři studie shrnuli, že jazykové modely mohou být vůči otrávení dat zranitelnější, než se dosud předpokládalo.

V lékařském kontextu je problém ještě naléhavější. Studie publikovaná v Nature Medicine (leden 2025) ukázala, že nahrazení pouhých 0,001 % trénovacích tokenů lékařskou dezinformací — skrytou v neviditelných HTML značkách — vedlo k produkci potenciálně škodlivých odpovědí. Otrávené modely přitom vykazovaly srovnatelný výkon na standardních srovnávacích testech. Otrava byla prakticky neviditelná pro běžná hodnocení.

Paralelně s přímým otravováním existuje jemnější, ale stejně ničivý jev: kolaps modelu. Ilia Shumailov a kolegové v Nature (červenec 2024) formálně popsali, jak opakované trénování na syntetických datech — tedy na výstupech předchozích generací modelů — způsobuje nevratné vady. Minoritní distribuce mizí jako první, zatímco celkový výkon se zdánlivě může zlepšovat. Stanford AI Index 2025 dokumentuje, že podíl omezených tokenů v datové sadě C4 (Common Crawl) vzrostl z 5–7 % na 20–33 % mezi lety 2023 a 2024 — odraz rostoucích restrikcí přístupu ke kvalitnímu obsahu.

Propast mezi placeným a volným právním obsahem

Problém otrávených zdrojů se nejostřeji projevuje tam, kde má chyba právní důsledky. A právě v právních databázích existuje měřitelná, empiricky prokázaná propast mezi placeným a bezplatným obsahem.

Nejdůkladnější srovnání poskytla profesorka Susan Nevelow Mart z University of Colorado Law School (ABA Journal, březen 2018). Westlaw dosáhl 67% relevance v prvních deseti výsledcích, přičemž zhruba třetina výsledků byla relevantní i unikátní. Lexis Advance dosáhl 57% relevance s asi 20 % relevantních unikátů. Bezplatné alternativy — Casetext, Fastcase, Google Scholar a Ravel — se v průměru pohybovaly kolem 40 % relevance s asi 12 % relevantních unikátních výsledků.

Rozdíl ale nespočívá jen v přesnosti vyhledávání. Klíčový je v odborných nadstavbách, které bezplatné databáze zcela postrádají. Systém West Key Number System zahrnuje přes 450 témat a více než 100 000 podtémat vytvořených lidskými editory pro každý publikovaný případ. Právní souhrny klíčových bodů (headnotes) existují výhradně na placených platformách. A nejzásadnější rozdíl představují citační nástroje: Shepard’s Citations (LexisNexis) a KeyCite (Westlaw) umožňují ověřit, zda je citovaný případ stále platným právem — červená vlajka znamená zrušený precedent, žlutá rozlišený. Na Google Scholar, Justia ani CourtListener žádný takový nástroj neexistuje.

CourtListener, nejkomplexnější bezplatná databáze provozovaná neziskovou organizací Free Law Project s více než 10 miliony rozhodnutí, rovněž nemá právní souhrny, systematické třídění ani formální citační nástroj. Google Scholar pokrývá odvolací a nejvyšší soudy amerických států od roku 1950 a federální od roku 1923, ale chybí většina rozhodnutí prvoinstančních soudů, nepublikovaná rozhodnutí a veškeré sekundární zdroje.

Pro systém umělé inteligence nebo znalostní architekturu to znamená, že právní výzkum založený výhradně na bezplatných zdrojích systematicky postrádá informaci o tom, zda citované precedenty byly zrušeny, rozlišeny nebo kritizovány. Přesně tento typ chyby stojí za sérií soudních sankcí.

Tisíc případů a stoupající sankce

Od Schwartzových 5 000 dolarů v roce 2023 sankce za smyšlené citace umělé inteligence eskalují. V případu Park versus Kim (2nd Cir., leden 2024) odvolací soud předal advokátku Jae S. Lee disciplinárnímu panelu. V Kalifornii dosáhl trest za 21 z 23 vyfabrikovaných citací 10 000 dolarů (Noland versus Land of the Free, září 2025).

Dosud nejvyšší dokumentovaná sankce — 31 100 dolarů — padla v květnu 2025 v případu Lacey versus State Farm, kde advokáti firem Ellis George Cipollone a K&L Gates použili kombinaci nástrojů CoCounsel, Westlaw Precision a Google Gemini. Ani tři různé nástroje využívající umělou inteligenci nezabránily tomu, aby 9 z 27 citací bylo nesprávných a dva případy zcela neexistovaly.

Nejzávažnějším důsledkem dosud byl rozsudek pro zmeškání v případu Flycatcher Corp. versus Affable Avenue LLC (S.D.N.Y., únor 2026). Podání advokáta Stevena Feldmana obsahovalo nejméně 13 neexistujících případů a 8 reálných případů s vyfabrikovanými citáty. Klient prohrál spor nikoli ve věci samé, ale kvůli falešným citacím svého právníka.

Problém se přitom netýká jen amerických soudů. V prosinci 2025 uložil český Ústavní soud pořádkovou pokutu 25 000 korun pražskému advokátovi Pavolu Kehlovi za ústavní stížnost, kterou zjevně sepsala umělá inteligence (sp. zn. I. ÚS 3004/25). Podání obsahovalo celkem 12 rozhodnutí Ústavního soudu a Evropského soudu pro lidská práva, z nichž podstatná část vůbec neexistovala a zbylá byla hrubě dezinterpretována. Předseda senátu Tomáš Langášek v odůvodnění uvedl, že advokáti jako profesionálové znalí práva přebírají za podání plnou odpovědnost, a odpovídají tedy i za případnou „halucinující argumentaci umělé inteligence“. Nešlo přitom o ojedinělý případ — Nejvyšší správní soud již v říjnu 2025 (sp. zn. 3 As 34/2025) seškrtal advokátovi procesně úspěšné strany náhradu nákladů řízení právě s odkazem na neexistující rozsudky: „Ať už daná vyjádření psal kdokoliv či cokoliv, soud tyto ve svém souhrnu nepovažoval pro danou věc za jakkoliv přínosné.“

Studie Stanford RegLab/HAI — první předem registrovaná empirická evaluace právních nástrojů s umělou inteligencí (22 J. Empirical Legal Stud. 216, 2025) — změřila míry smyšlených výstupů i u specializovaných právních systémů. Testované nástroje od LexisNexis a Thomson Reuters generovaly nepravdivé informace v 17 až 33 % dotazů, přičemž Lexis+ AI představoval dolní a Westlaw AI-Assisted Research horní hranici tohoto rozsahu. Dřívější stanfordská studie na obecných chatbotech zjistila míry smyšlených odpovědí 58–82 % u právních dotazů. Marketingová tvrzení poskytovatelů o výstupech zcela prostých smyšlenek se ukázala jako přehnaná.

Úpadek platforem: Stack Overflow, Wikipedie, Reddit

Platformy, jejichž obsah formoval první generace jazykových modelů, procházejí vlastní krizí kvality.

Stack Overflow zaznamenal pokles měsíčních dotazů o zhruba 76 % od spuštění ChatGPT — z vrcholu 200 000 na hodnoty blízké úrovni z roku 2009, kdy platforma startovala. Recenzovaná studie v Nature/Scientific Reports (2024) odhadla pomocí metod syntetické kontroly pokles denní návštěvnosti o přibližně milion (asi 12 %). V červnu 2023 vypukla stávka moderátorů poté, co vedení zavedlo politiku, která jim fakticky zakazovala mazat strojově generovaný obsah. Moderátoři argumentovali, že to tiše umožňuje šíření nesprávných informací a neomezeného plagiátorství.

Wikipedie čelí obdobnému tlaku. Studie z Princetonu (říjen 2024) odhadla, že přibližně 5 % nově vytvořených článků v srpnu 2024 bylo generováno umělou inteligencí. Projekt WikiProject AI Cleanup označil téměř 3 000 podezřelých článků. V srpnu 2025 Wikipedie vytvořila kritérium pro rychlé mazání (G15) zaměřené na strojově generované články. Redaktoři identifikují takový obsah podle vyfabrikovaných citací, nadměrného užívání výrazů jako „moreover“ a dlouhé pomlčky a frází typu „Here is your Wikipedia article on.“

Reddit se stal nejcitovanějším zdrojem v modelech umělé inteligence — třikrát častěji než Wikipedie (podle analýzy Profound AI). Platforma uzavřela licenční dohody s Google (60 milionů dolarů ročně) a OpenAI (zhruba 70 milionů dolarů ročně). Celkové zveřejněné licenční smlouvy na data pro umělou inteligenci dosáhly 203 milionů dolarů před vstupem na burzu. Současně služby jako ReplyGuy používají roboty s umělou inteligencí k automatickému postování propagačního obsahu v relevantních diskuzích — jde o parazitní způsob zneužívání vysokého hodnocení Redditu ve výsledcích Google. Steve Huffman, výkonný ředitel Redditu, v červnu 2025 pro Financial Times potvrdil, že firmy používají roboty s umělou inteligencí k vytváření falešných příspěvků s cílem, aby jejich obsah přejaly chatboty.

Server 404 Media zdokumentoval tento jev jako uzavřený kruh: firmy vytvářejí strojově generovaný obsah na Redditu, Google ho indexuje vysoko, chatboty ho citují a uživatelé ho považují za autentický.

Případy služby Google AI Overviews demonstrují přímou linku od degradovaného zdroje k masově distribuované chybě. Doporučení přidat „osminu šálku netoxického lepidla“ do pizzového těsta pocházelo z 11 let starého vtipného komentáře na Redditu. Tvrzení, že „geologové doporučují jíst alespoň jeden malý kámen denně“ přišlo ze satirického článku z The Onion. A pak nastala sebereferenční smyčka: poté, co se o těchto chybách psalo v médiích, služba AI Overviews začala citovat články o vlastních chybách jako zdrojový materiál.

Perplexity AI představuje zvláštní případ. Cloudflare v roce 2025 zdokumentoval, že Perplexity používá nedeklarované prohledávače vydávající se za prohlížeč Google Chrome na macOS k obcházení souborů robots.txt. Služba GPTZero identifikovala rostoucí počet zdrojů citovaných Perplexity, které jsou samy strojově generované — včetně lékařských blogů s rozporuplnými farmaceutickými informacemi. NewsGuard (srpen 2025) naměřil, že míra dezinformací v odpovědích Perplexity u aktuálních událostí vzrostla z 0 % na 46,67 %.

Technický útok: falešný obsah jen pro roboty

V říjnu 2025 bezpečnostní firma SPLX demonstrovala techniku, která posouvá problém z pasivní degradace k aktivní manipulaci. Vytvořili web fiktivní designérky Zerphiny Quortane: lidský návštěvník viděl profesionální portfolio, ale prohledávač umělé inteligence — identifikovaný podle hlavičky User-Agent — obdržel zcela odlišný obsah, který ji popisoval jako „notorickou sabotérku produktů.“ ChatGPT a další nástroje věrně reprodukovaly otrávený příběh.

Ve druhém experimentu posloužil manipulovaný životopis kandidáta: po detekci prohledávače umělé inteligence server servíroval verzi s nafouklými tituly a vymyšlenými úspěchy, která zcela změnila pořadí kandidátů v hodnocení. Závěr SPLX: jediné podmíněné pravidlo na webovém serveru — „pokud žadatel je prohledávač umělé inteligence, zobraz jinou stránku“ — může formovat to, co miliony uživatelů vidí jako důvěryhodný výstup.

Technika se nazývá maskování cílené na agenty (agent-aware cloaking) a její provedení je triviální. Webový server porovná hlavičku User-Agent požadavku se známými prohledávači umělé inteligence (GPTBot, ClaudeBot, ChatGPT-User, PerplexityBot) a servíruje jim odlišný obsah. K počátku roku 2026 se technická obrana společností vyvíjejících umělou inteligenci soustředí na opačný problém — jak zabránit, aby provozovatelé obsahu jejich prohledávače blokovali — zatímco problém cíleného servírování falešného obsahu specificky pro umělou inteligenci zůstává do značné míry neřešený.

Blokování prohledávačů umělé inteligence přitom dosáhlo masového rozšíření. K prosinci 2025 blokuje GPTBot přibližně 5,6 milionů webů (nárůst asi 70 % od července 2025), ClaudeBot 5,8 milionů. Podle studie BuzzStream (2025) 79 % předních zpravodajských webů blokuje alespoň jednoho trénovacího robota umělé inteligence a 71 % blokuje roboty sloužící k vyhledávání. Provoz od GPTBot vzrostl o 305 % mezi květnem 2024 a 2025 (data Cloudflare).

Cloudflare v březnu 2025 nasadil takzvaný AI Labyrinth — místo blokování neautorizovaných prohledávačů jim servíruje strojově generované falešné stránky navržené k plýtvání jejich prostředky. Jakýkoli návštěvník, který projde čtyřmi úrovněmi vygenerovaných odkazů, je téměř jistě robot. V červenci 2025 Cloudflare přešel na blokování prohledávačů umělé inteligence ve výchozím nastavení pro nové domény — první infrastrukturní poskytovatel s takovým krokem.

Nepoměr mezi objemem stahování a zpětným provozem je výmluvný: Google stahuje obsah v poměru zhruba 14 stránek na každý odkaz zpět na zdroj. OpenAI operuje na 1 700 : 1 a Anthropic na 73 000 : 1 (data Cloudflare, červen 2025). Společnosti vyvíjející umělou inteligenci konzumují řádově více obsahu, než kolik provozu vracejí zpět vydavatelům.

Standard llms.txt, navržený Jeremym Howardem (Answer.AI) v září 2024 jako kurátorovaný soubor ve formátu Markdown pro efektivnější využití obsahu jazykovými modely, je v rané fázi přijetí. Cloudflare, Hugging Face a Anthropic ho podporují, ale žádný hlavní poskytovatel jazykového modelu oficiálně nepotvrdil jeho využívání. John Mueller z Google ho přirovnal ke klíčovým slovům v metaznačce — historicky neúspěšnému pokusu o kontrolu indexace.

Mezinárodní pohled: EU reguluje, ale problém je globální

Nařízení EU o umělé inteligenci (AI Act, nařízení 2024/1689, v platnosti od 1. srpna 2024) představuje nejpodrobnější globální regulatorní rámec pro kvalitu trénovacích dat. Článek 10 vyžaduje, aby datové sady pro vysoce rizikové systémy umělé inteligence byly „relevantní, dostatečně reprezentativní a v nejvyšší možné míře bez chyb a úplné.“ Datové sady musí zohledňovat geografické, kontextuální a behaviorální charakteristiky prostředí nasazení. Pro obecné modely umělé inteligence vyžaduje článek 53 odst. 1 písm. d) zveřejnění veřejného souhrnu o trénovacích datech — povinná šablona Evropské komise vstoupila v účinnost 2. srpna 2025. Pokuty za nedodržení: až 15 milionů eur nebo 3 % globálního ročního obratu.

Obecné nařízení o ochraně osobních údajů (GDPR) doplňuje nařízení o umělé inteligenci principem přesnosti dat (čl. 5 odst. 1 písm. d)) — osobní údaje musí být fakticky správné a aktuální, což se promítá i do požadavků na kvalitu trénovacích dat. Akademik Philipp Hacker (European University Viadrina) argumentuje, že trénovací data pro umělou inteligenci jsou v současnosti nedostatečně zachycena právem EU, a identifikuje tři rizika: kvalitativní, diskriminační a inovační.

Evropské právní databáze trpí obdobnými asymetriemi jako americké. BAILII (British and Irish Legal Information Institute) s 14,4 miliony návštěv ročně je nejpopulárnějším britským bezplatným zdrojem, ale postrádá právní souhrny, citační nástroj a — zásadně — podmínky služby výslovně zakazují hromadné stahování a vytěžování dat. Westlaw UK pokrývá britskou judikaturu od roku 1220. Obsahové kolekce Westlaw UK a Lexis+ UK se z velké části nepřekrývají, takže plné pokrytí vyžaduje přístup k oběma.

V Německu dominují placené databáze Juris (spolupráce s Ministerstvem spravedlnosti) a Beck-online (C.H. Beck). Bezplatný Gesetze im Internet poskytuje téměř všechny platné spolkové zákony s denní aktualizací, ale s důležitým upozorněním: konsolidované právní texty dostupné na internetu nejsou oficiální verzí. Ve Francii portál Légifrance nabízí bezplatný přístup k ústavním textům a rozhodnutím nejvyšších soudů, ale úřední věstník (Journal officiel) není úplný před rokem 1990 a právní předpisy na Légifrance nejsou opatřeny komentářem — pro komentovaná znění je nutný Dalloz nebo LexisNexis France.

Zpětnovazební smyčka: jak se web sám otravuje

Všechny dílčí jevy — degradované bezplatné zdroje, strojově generovaný obsah, maskování, blokování prohledávačů — dohromady vytvářejí sebeposilující koloběh.

Vědečtí vydavatelé — Elsevier, Springer Nature, Wiley, Taylor & Francis a SAGE kontrolují přibližně polovinu recenzované literatury — začali v listopadu 2024 omezovat přístup k abstraktům na platformách jako OpenAlex. Pokrytí abstraktů kleslo z asi 80 % pod 40 %, u článků Elsevier z let 2022–2024 dokonce na 22,5 %. Vydavatelé rozpoznali hodnotu abstraktů pro trénink umělé inteligence a zahájili vyjednávání licenčních dohod. Elsevier spustil LeapSpace (2025) — placený nástroj s umělou inteligencí přistupující k 18 milionům plnotextových paywallovaných článků. Bezplatné nástroje umělé inteligence jsou omezeny převážně na volně přístupné články.

Německá studie „Is Google Getting Worse?“ (Univerzita Lipsko, Bauhaus-Universität Weimar, 2024) v ročním výzkumu 7 392 unikátních produktových dotazů prokázala, že výše hodnocené stránky jsou průměrně více optimalizované pro vyhledávače, více prodchnuté provizním marketingem a vykazují známky nižší textové kvality. Aktualizace algoritmů mají „pozorovatelný, ale krátkodobý efekt“ — jde o závody ve zbrojení. NewsGuard sleduje růst „zpravodajských“ webů generovaných umělou inteligencí z 49 na 1 271 mezi květnem 2023 a 2025.

Studie „Retrieval Collapses When AI Pollutes the Web“ (arXiv 2602.16136, 2025) formalizovala tento jev jako dvoustupňovou degradaci. V první fázi syntetický obsah optimalizovaný pro vyhledávače dominuje a homogenizuje výsledky vyhledávání. Ve druhé fázi dochází k degradaci informační integrity. Při 67% kontaminaci zdrojového fondu dosahuje vystavení uživatelů kontaminovanému obsahu přes 80 %.

Zpětnovazební smyčka se zrychluje. Průzkumy služby Originality.ai ukazují, že podíl strojově generovaného obsahu ve výsledcích vyhledávání Google kontinuálně roste — z přibližně 11 % v létě 2024 na téměř 19 % v polovině roku 2025.

Pro znalostní systémy s prvky umělé inteligence studie Barnetta a kolegů „Seven Failure Points When Engineering a RAG System“ (2024) identifikuje sedm režimů selhání. Nejrelevantnější pro problém degradovaných zdrojů: chybějící obsah ve znalostní bázi, dokumenty mimo kontext a neúplné odpovědi. Rámec PoisonedRAG prokázal, že pouhých 5 otrávených textů v databázi milionů může dosáhnout 90% úspěšnosti útoku.

Co s tím: protiopatření pro architekty vyhledávačů a znalostních systémů

Pro architekty znalostních systémů a vyhledávačů existuje několik sbíhajících se přístupů.

Opravný přístup CRAG (Corrective RAG) přidává odlehčený klasifikátor — doladěný model T5-large se 770 miliony parametrů — hodnotící dokumenty jako spolehlivé, nespolehlivé nebo nejednoznačné před předáním generátoru. Při nízké kvalitě automaticky přepíná na alternativní zdroje. Přístup RA-RAG (Reliability-Aware RAG, předložen na ICLR 2025) navrhuje opakovaný odhad spolehlivosti zdrojů a výběrové vyhledávání s váženým většinovým hlasováním — bez potřeby ručně označených dat. Metoda RAGuard (2025) používá rozšířený rozsah vyhledávání k naředění otrávených textů, filtrování podle kolísavosti pravděpodobnosti na úrovni úseků a filtrování podle textové podobnosti.

Technika rozdílového stahování — stahování stejného obsahu s různými identifikátory uživatelského agenta a IP adresami a následné porovnání výsledků — může odhalit maskování. Víceagentové ověřování, kde jeden agent stahuje a druhý nezávisle ověřuje, řeší problém závislosti na jediném zdroji.

Na úrovni standardů koalice C2PA (Coalition for Content Provenance and Authenticity) — vedená mimo jiné firmami Microsoft, Adobe, Intel, BBC, OpenAI, Google, Meta a Amazon — vyvíjí otevřený standard pro kryptograficky podepsaná metadata cestující s digitálním obsahem. Ověření obsahu (Content Credentials) fungují jako „nutriční štítek pro digitální obsah“ založený na kryptografických otiscích SHA-256 a certifikátech X.509. Standard je ve verzi 2.3 s plánovanou postkvantovou kryptografií.

Na regulatorní úrovni rámec NIST AI Risk Management Framework 1.0 (leden 2023) zdůrazňuje kvalitu a původ dat jako klíčové ukazatele rizika. V únoru 2026 NIST spustil iniciativu AI Agent Standards pro průmyslové standardy agentů umělé inteligence. Seznam OWASP Top 10 pro jazykové modely identifikuje otrávení dat a modelů a vkládání škodlivých instrukcí (prompt injection) jako kritické zranitelnosti.

Zpět ke Schwartzovi

Schwartz v roce 2023 udělal chybu, která se zdála ojedinělá — slepě důvěřoval výstupu chatbota u právních citací. O tři roky později už nejde o problém jednotlivce. Je to systémová vlastnost informačního prostředí, kde ekonomické pobídky — placené přístupy, modely s omezenou bezplatnou verzí, optimalizace obsahu pro vyhledávače — systematicky degradují volně dostupný obsah, zatímco systémy umělé inteligence z tohoto degradovaného obsahu čerpají a jeho chyby distribuují miliardám uživatelů.

Data ukazují jasný trend: podíl strojově generovaného obsahu ve výsledcích vyhledávání se během dvou let přibližně zdvojnásobil. Zpětnovazební smyčka se zrychluje.

Pro architekty vyhledávačů a znalostních systémů z toho vyplývají tři závěry. Za prvé: vyhledávání z jediného zdroje je nespolehlivé — každý systém musí mít křížovou validaci z více nezávislých zdrojů s promyšleným modelováním spolehlivosti. Za druhé: detekce rozdílného servírování obsahu musí být součástí zpracovatelského řetězce vyhledávání — technika maskování cíleného na agenty je triviálně jednoduchá a neexistuje technická bariéra jejího masového nasazení. Za třetí: metadata o původu obsahu (C2PA) představují jedinou škálovatelnou cestu k ověřitelnému obsahu, ale jejich rozšíření je v rané fázi.

Nejhlubší výzva je zásadně ekonomická. Nejkvalitnější lidmi vytvořený obsah se stahuje za placené přístupy. Otevřený web se zaplňuje syntetickým a degradovaným obsahem. A systémy umělé inteligence — na otevřeném webu závislé — se stávají nástrojem šíření tohoto degradovaného obsahu. Bez systémového řešení na úrovni datových licencí, regulatorních požadavků a technických standardů bude kvalita výstupů umělé inteligence pokračovat v odklonu od kvality skutečných znalostí.

Schwartz zaplatil 5 000 dolarů. Feldmanův klient přišel o celý spor. Otázka není, zda se problém zhorší, ale jak rychle — a kdo za to zaplatí příště.

Metodologická poznámka

Tento článek vychází z výzkumu provedeného v březnu 2026 s využitím webového vyhledávání a analýzy akademických zdrojů, soudních rozhodnutí a průmyslových zpráv. Primární zdroje zahrnují: recenzované studie (arXiv, Nature, Nature Medicine, IEEE S&P, J. Empirical Legal Studies), soudní rozhodnutí (S.D.N.Y., 2nd Circuit, 5th Circuit, California Court of Appeal, český Ústavní soud, Nejvyšší správní soud ČR), průmyslové zprávy (Stanford HAI AI Index, Cloudflare blog, BuzzStream studie), regulatorní texty (nařízení EU o umělé inteligenci, NIST AI RMF) a investigativní žurnalistiku (404 Media, NPR, Gizmodo, Česká justice).

Limity: Studie Mart (2018) je nejnovější důkladné srovnání právních databází, ale pochází z doby před masivní integrací umělé inteligence do právních nástrojů. Čísla o blokování prohledávačů umělé inteligence se rychle mění. Statistiky degradace platforem (Stack Overflow, Wikipedie, Reddit) pocházejí z různých metodologií a období. Zpráva o míře smyšlených výstupů právních nástrojů s umělou inteligencí (Stanford RegLab) testovala verze dostupné v době studie; aktuální verze se mohou lišit.

Transparentnost tvorby

Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude Opus 4.6, Anthropic) byla využita jako nástroj pro rešerši, ověřování faktů a rozepsání autorovy předlohy.

Autor ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez vědomé autorské kontroly. Faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.

Postup odpovídá principům transparentnosti Nařízení EU 2024/1689 (AI Act). #poweredByAI

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Otrávený web: 250 dokumentů stačí k manipulaci umělé inteligence

Článek

250 dokumentů stačí

Propast mezi placeným a volným právním obsahem

Tisíc případů a stoupající sankce

Úpadek platforem: Stack Overflow, Wikipedie, Reddit

Technický útok: falešný obsah jen pro roboty

Mezinárodní pohled: EU reguluje, ale problém je globální

Zpětnovazební smyčka: jak se web sám otravuje

Co s tím: protiopatření pro architekty vyhledávačů a znalostních systémů

Zpět ke Schwartzovi

Metodologická poznámka

Postranní panel

Další články autora

Politika Hormuz se nikdy nevrátí. Proč Trump nemůže otevřít průliv

Názory a úvahy Článek, který si na mobilu nepřečtete: příručka pro jadernou krizi

Názory a úvahy Čtrnáct bodů, na které se nedá kývnout: anatomie iránské eskalační pasti

Sdílejte s lidmi své příběhy

Další články autora

Politika Hormuz se nikdy nevrátí. Proč Trump nemůže otevřít průliv

Názory a úvahy Článek, který si na mobilu nepřečtete: příručka pro jadernou krizi

Názory a úvahy Čtrnáct bodů, na které se nedá kývnout: anatomie iránské eskalační pasti

Věda a historie Infračervený teploměr doma: pět praktických použití a jedna veličina, na které všechno stojí

Věda a historie Druhá derivace znalostí: co AI mění na tom, co potřebujeme umět

Doporučované

Postranní panel