Článek
Když tým kvantitativního lingvisty Jiřího Milički z Univerzity Karlovy nechal v roce 2025 šestnáct nejpokročilejších jazykových modelů psát české texty podle předloh z Českého národního korpusu, nejstarší z testovaných modelů — OpenAI davinci-002 — nedokázal vyprodukovat jediný soudržný český odstavec. Zkolaboval do nesrozumitelné směsi slov. Novější modely si vedly lépe, ale jinak: psaly gramaticky přijatelnou češtinu, která se od lidských textů lišila způsobem, jenž autoři studie dokázali systematicky změřit. Čeština z jazykového modelu byla plošší, jednotvárnější a stylisticky chudší než lidský originál.
Toto zjištění by mohlo zůstat akademickou kuriozitou, nebýt jednoho faktu: podle průzkumu společnosti Scio z přelomu let 2024 a 2025 používá 69 procent českých žáků umělou inteligenci pro školní účely. Texty, které modely generují — s jejich specifickými omezeními — se tak stávají součástí jazykového vstupu celé generace.
Vzniká paradox, který dosud nikdo systematicky nezkoumal. Existují desítky studií o tom, jak čeština ovlivňuje výkon jazykových modelů. Opačný směr — jak modely ovlivňují češtinu — je výzkumné bílé místo. Přitom první data naznačují, že důsledky mohou být dalekosáhlé: od pronikání anglických syntaktických vzorců přes ochuzení stylistické pestrostí až po snižování myšlenkového zapojení studentů při psaní.
Americký mozek, české rty
Čeština tvoří méně než jedno procento trénovacích dat velkých jazykových modelů. Angličtina zabírá přes 54 procent webu, odkud se modely učí. Tento nepoměr má měřitelné důsledky.
Studie „English-Czech Output Bias in LLMs“ předložená na konferenci ICAIR v roce 2025 testovala jazykové modely na 48 párovaných matematických úlohách v češtině a angličtině. Výsledek: modely důsledně produkovaly obsáhlejší a podrobnější odpovědi v angličtině. Přestože česká otázka měla tentýž obsah, anglická verze získala rozsáhlejší vysvětlení — jako by modely věnovaly angličtině větší „pozornost“. Autoři to interpretují jako důkaz, že architektura modelů zvýhodňuje angličtinu i tehdy, kdy odpovídají česky.
Česká Wikipedie k tomu v hesle o velkých jazykových modelech uvádí, že modely „často prezentují anglo-americkou perspektivu jako jedinou správnou.“ Přímou studii o nárůstu anglicismů v textech generovaných jazykovými modely v češtině zatím nikdo nepublikoval — jde o zásadní výzkumnou mezeru. Širší souvislosti ale existují: česká lingvistika dlouhodobě sleduje pronikání anglicismů do češtiny, od přímých výpůjček přes kalky až po takzvané pseudoanglicismy, jak dokumentuje studie „Pseudo-Anglicisms in Czech“ z roku 2021 v rámci projektu Global Anglicism Database Network.
Umělá inteligence tuto tendenci pravděpodobně urychluje — ale „pravděpodobně“ je klíčové slovo. Přímý empirický důkaz zatím chybí.
Kdy všechny texty znějí stejně
Zatímco anglicizace zůstává hypotézou, stylistické zploštění je měřitelný fakt. Milička a jeho tým v září 2025 publikovali studii „Benchmark of Stylistic Variation in LLM-Generated Texts“ v archivu arXiv, kde aplikovali takzvanou multidimenzionální analýzu podle Bibera na šestnáct modelů špičkové třídy. Češtinu zvolili záměrně jako zástupce středně velkých jazyků, protože — jak píší — angličtina zaujímá zcela ojedinělou pozici a výsledky z ní nelze zobecňovat.
Klíčové zjištění: základní modely trénované na rozmanitých textech ztrácejí schopnost napodobovat stylisticky a myšlenkově různorodé osobnosti poté, co projdou instrukčním laděním a učením ze zpětné vazby od lidí. Jinými slovy: proces, který z modelů dělá „bezpečné“ a „užitečné“ konverzační partnery, z nich zároveň dělá horší spisovatele.
Mezinárodní výzkum toto potvrzuje z několika stran. Studie z Cornellovy univerzity pro konferenci CHI 2025 prokázala na 118 účastnících, že návrhy z jazykových modelů vedou k přejímání západních a amerických stylistických vzorců. Autoři měřili, nakolik dokáže třídící algoritmus rozlišit indický a americký písemný projev: bez strojové asistence dosáhl přesnosti 90,6 procenta, s ní klesla na 83,5 procenta. Své zjištění nazvali „kolonialismem umělé inteligence.“
Text publikovaný na webu UNESCO pod názvem „AI and the Great Linguistic Flattening“ (2025) popsal takzvaný problém výchozího přístupu (Default Approach Problem): jazykové modely upřednostňují určité výrazy a syntaktické struktury a potlačují ostatní. Paradoxně naznačil, že dopad na menší jazyky může být nepřímo úměrný počtu mluvčích — méně institucionalizované jazyky mohou být odolnější, protože mají méně formálních korpusů v trénovacích datech.
V anglických akademických textech je zploštění už vyčíslitelné. Slovo „delve“ vzrostlo v odborných článcích o 1 500 procent, „underscore“ o 1 000 procent, „intricate“ o 700 procent mezi lety 2022 a 2024, jak ukázaly přehledové analýzy založené na studiích Kobaka, Lianga a dalších. Nejméně deset procent biomedicínských abstraktů v roce 2024 bylo podle Kobakovy studie zpracováno jazykovým modelem.
Pro češtinu analogická čísla neexistují. Korpus AI-Koditex — těch 21,5 milionu tokenů, které Miličkův tým shromáždil — vytváří podmínky pro jejich získání. Analýzy ale dosud publikovány nebyly.
Rozumí, ale neumí mluvit
Nejpřímější empirický důkaz o tom, co jazykové modely s češtinou dělají, přináší MiniCzechBenchmark, jehož výsledky Petr Šimeček prezentoval na workshopu NeurIPS 2025. Testoval přes padesát modelů a konstatoval dvě věci. Za prvé: mezi anglickými a českými schopnostmi přetrvávají 10–30procentní výkonnostní mezery. Za druhé: přesnost v testových otázkách s výběrem odpovědí a kvalita generovaného textu představují odlišné dovednosti. Model může správně odpovídat na české otázky, zatímco produkuje nekvalitní český text.
Tato disociace mezi porozuměním a tvorbou textu má přímé důsledky pro školství. Student, který nechá jazykový model napsat seminární práci, dostane text, který je obsahově přijatelný — model „rozumí“ zadání — ale stylisticky ochuzený, protože model češtinu „mluví“ hůř, než jí „rozumí.“
Příčiny jsou strukturální. Český text vyžaduje více tokenů než anglický kvůli morfologické složitosti — sedmi pádům, čtyřem rodům včetně kategorie životnosti, bohaté konjugaci a derivaci. Penalizace při rozkladu na tokeny znamená, že model spotřebuje více výpočetního prostoru na zakódování téhož obsahu, čímž mu zbývá méně kapacity na stylistickou kvalitu.
Jak konkrétně jazykové modely češtinu „zplošťují”? Kamil Kopecký, český výzkumník zaměřený na digitální gramotnost, dokumentoval už v roce 2023 systematické chyby GPT-3 v kategoriích, které nemají anglický ekvivalent: záměny životných a neživotných deklinací maskulin, chyby ve vyjmenovaných slovech, nesprávné rozlišení „mě“ a „mně“ a chybné pádové tvary. Model přitom exceloval ve čtení s porozuměním — v identifikaci klíčových myšlenek a ověřování tvrzení. Disociace v praxi.
Na lexikální úrovni české zdroje — Fakticky.cz, Seznam Zprávy, UIW.cz — identifikují typické příznaky strojového textu: nadužívání slov „klíčové“, „výzva“ a „fascinující“, monotónní konstrukce s „což“, absenci synonymické obměny a vyhýbavé formulace typu „Je třeba míti na paměti, že…“ Na strukturální úrovni je strojový text charakteristický jednotvárnou délkou odstavců, předvídatelnou organizací a šablonovitými přechodovými frázemi.
Generace Ctrl+C
Data o tom, kolik českých studentů s jazykovými modely pracuje, jsou překvapivě bohatá — a čísla rostou s každým průzkumem.
Průzkum AI Kompas společnosti Scio z přelomu let 2024 a 2025, který oslovil 3 406 žáků, zjistil, že 72 procent z nich používá umělou inteligenci pravidelně pro volný čas a 69 procent pro školní účely. Průzkum STEM pro platformu Nekrachni uvádí, že 45 procent žáků ve věku 11–19 let vyzkoušelo nějaký nástroj s umělou inteligencí, přičemž ChatGPT používá 89 procent z nich. Průzkum programu Jeden svět na školách z konce roku 2023 mezi 1 200 středoškoláky zjistil, že 86 procent má zkušenost s umělou inteligencí; nejčastější využití je tvorba a úprava textů (51 procent) a překlady (46 procent).
Co to znamená pro učení? Národní institut SYRI přinesl dosud nejvarovnější český údaj: třetina žáků základních škol, kteří používají umělou inteligenci při přípravě do školy, zároveň věří, že se nemusí učit nazpaměť. Žáci používající tyto nástroje vykazovali tendenci k horším známkám z matematiky i češtiny.
Jde o souvztažnost, ne o prokázanou příčinnou souvislost — to je třeba zdůraznit. Žáci s horšími známkami mohou sahat po umělé inteligenci jako po kompenzačním nástroji, ne naopak. Dlouhodobá studie, která by příčinnost prokázala nebo vyvrátila, v českém prostředí neexistuje.
Mezinárodní výzkum ale signalizuje, že obavy nejsou neopodstatněné. Studie publikovaná v časopise Education Week v červnu 2025 prokázala nižší mozkovou aktivitu u pisatelů používajících jazykové modely. Profesor Steve Graham z Arizonské státní univerzity upozornil, že studenti přicházejí o cvičení důležitých pisatelských dovedností. Bai, Liu a Su v přehledovém článku pro PubMed Central z roku 2025 dokumentují, že nadměrné spoléhání na umělou inteligenci snižuje myšlenkové zapojení a dlouhodobé zapamatování.
Na druhou stranu: studie v časopise International Journal of AI in Education ze stejného roku ukázala, že tvořivá umělá inteligence může snížit čas psaní o 56,7 procenta a zvýšit kvalitu výstupu, přičemž největší přínos zaznamenali nerodilí mluvčí. Umělá inteligence není jen hrozba — je to nástroj s reálným potenciálem, jehož dopady závisí na způsobu použití.
Pět univerzit, žádná shoda
České univerzity zareagovaly na umělou inteligenci proaktivně, ale nejednotně. Každá si vytváří vlastní pravidla — někdy dokonce po fakultách.
Masarykova univerzita byla první: v dubnu 2023 vydala stanovisko k využívání umělé inteligence ve výuce. Chápe ji jako příležitost, vyžaduje průhlednost — nepřiznané použití klasifikuje jako plagiátorství — a varuje před nahráváním studentských prací do externích detekčních nástrojů kvůli ochraně soukromí. Její Ekonomicko-správní fakulta zrušila klasické bakalářské práce a nahradila je praktickými projekty.
Nejradikálnější krok udělala VŠE. Fakulta podnikohospodářská od akademického roku 2024/25 zrušila bakalářské práce úplně. Děkan Jiří Hnilica to zdůvodnil tím, že s dobře zpracovanými pokyny dokáže umělá inteligence vytvořit podstatnou část práce a realisticky to nelze odhalit. Nahrazení: praktické projekty — stáže, výzkumné projekty, podnikatelské plány.
ČVUT vydalo v září 2023 metodický pokyn, který rozlišuje gramatickou korekturu (bez nutnosti přiznání) a významné textové změny (povinná deklarace). VUT Brno ve stejném měsíci stanovilo osm principů a klasifikuje umělou inteligenci výhradně jako pomocný a konzultační nástroj. Univerzita Karlova zřídila pracovní skupinu s prg.ai a provozuje centrální web ai.cuni.cz; její Právnická fakulta vydala podrobná pravidla včetně pětistupňové škály použití umělé inteligence.
Ministerstvo školství zaujalo podpůrný postoj. V roce 2025 spustilo program Základka.ai s cílem proškolit všechny učitele základních škol v práci s umělou inteligencí. Podle průzkumu TALIS 2024 používá umělou inteligenci ve výuce 46 procent českých učitelů — oproti evropskému průměru 32 procent.
Jednotná celostátní politika neexistuje. Koordinaci se pokouší zajistit pracovní skupina při UK a prg.ai, která předložila doporučení České konferenci rektorů, ale zavedení do praxe závisí na jednotlivých institucích.
Detektory, které nefungují
Když VŠE zkoušela detekční nástroje, nakonec od nich upustila. Nebyly dostatečně spolehlivé. A VŠE není sama.
Seznam Zprávy testovaly více detektorů na českých textech. Nejlepší výsledek dosáhl Copyleaks se 75 procenty správnou identifikací z dvaceti různorodých textů — autoři článku to označili za „výrazně nespolehlivé.“ Test serveru Fakticky.cz z února 2025 zjistil ještě nižší čísla u většiny nástrojů: ZeroGPT dosáhl 52 procent, Writer AI Content Detector 50 procent.
Jediný účelově vyvinutý český nástroj, DetekceGPT.cz autorů Kryštofa Olíka a Filipa Petrouška, deklaruje přes 90procentní přesnost na strojovém textu a 98procentní na lidském. Tyto údaje ale pocházejí od tvůrců a nebyly nezávisle ověřeny. Z mezinárodních nástrojů GPTZero uvádí pro češtinu 96,4procentní míru záchytu při 0,1procentní míře falešně pozitivních výsledků — přibližně o 3 procentní body méně než pro angličtinu.
Zásadní problém popsal tým Debory Weber-Wulffové a českého výzkumníka Tomáše Foltýnka z Mendelovy univerzity ve studii z roku 2023: testovali čtrnáct detekčních nástrojů a uzavřeli, že nejsou ani přesné, ani spolehlivé, se zkreslením směrem ke klasifikaci výstupu jako lidsky psaného. Testovali pouze angličtinu — pro češtinu by výsledky byly pravděpodobně ještě horší.
Stanfordská studie Lianga a kolegů z roku 2023 odhalila další vrstvu problému: 61 procent esejů nerodilých anglických mluvčích na zkoušce TOEFL bylo detektory klasifikováno jako text z jazykového modelu, zatímco u rodilých mluvčích detektory fungovaly téměř bezchybně. Statistické vlastnosti textu méně zkušených pisatelů — kratší věty, jednodušší slovní zásoba — se překrývají s vlastnostmi strojového textu. Detektory tak mohou systematicky penalizovat studenty, kteří umělou inteligenci nepoužili.
Stávající česká infrastruktura — systémy Theses.cz a Odevzdej.cz provozované Masarykovou univerzitou — se zaměřuje na odhalování plagiátů, ne strojového textu. Turnitin, používaný na UK od roku 2019, nabízí detekci strojového textu s omezeními pro neanglické jazyky. Národní technická knihovna doporučuje používat detektory pouze jako pomocné nástroje, nikoli jako důkaz.
Jak to řeší jinde
Polsko nabízí nejbližší srovnání. Od roku 2019 provozuje Jednotný antiplagiátorský systém — celostátní nástroj povinný pro všechny univerzity. V únoru 2024 k němu přibyl modul detekce strojového textu, dostupný zdarma. Každá závěrečná práce v Polsku je automaticky kontrolována na plagiáty i strojový obsah — ojedinělé řešení v evropských poměrech.
Německo klade důraz na právní soulad v rámci Aktu EU o umělé inteligenci, který od února 2025 klasifikuje umělou inteligenci ve vzdělávání jako potenciálně vysoce rizikovou. K listopadu 2024 ale pouze asi 30 procent německých univerzit publikovalo formální směrnice pro práci s umělou inteligencí, jak uvádějí Weßels a Lindner na portálu Forschung und Lehre. Právní posudek z Ruhr-Universität Bochum z roku 2023 potvrdil, že plošný zákaz umělé inteligence nemá smysl.
Francie prošla rychlou proměnou. Sciences Po Paris v lednu 2023 formálně zakázalo odevzdávání prací vytvořených umělou inteligencí, ale dnes přehodnocuje hodnoticí kritéria na třech úrovních: hodnocení dovedností místo produktu, přizpůsobení výuky a začlenění výuky o umělé inteligenci. Université Gustave Eiffel formulovala zásadu, která platí i pro české prostředí: dříve bylo hodnoceno, co student vytvořil; nyní je třeba hodnotit, jak student zvládá proces tvorby.
Společné vzorce: žádné plošné zákazy, povinná průhlednost, posun od hodnocení produktu k hodnocení dovedností.
Kde je pravda složitější
Bylo by pohodlné vyprávět příběh o tom, jak umělá inteligence ničí češtinu a otupuje studenty. Ale data jsou nuancovanější.
Za prvé: 10–30procentní výkonnostní mezera mezi angličtinou a češtinou u jazykových modelů se s každou generací zmenšuje. MiniCzechBenchmark testoval modely z let 2023 až 2025 a novější modely si vedou výrazně lépe. Claude 3 Opus v testech CzechBench z ČVUT prokázal nejvyšší gramatickou způsobilost v češtině ze všech testovaných modelů. Problémy, které Kopecký dokumentoval u GPT-3, jsou u GPT-4 a novějších modelů méně časté.
Za druhé: text na webu UNESCO sám připouští, že menší jazyky mohou být vůči sjednocování paradoxně odolnější. Méně formálních korpusů v trénovacích datech znamená, že umělá inteligence má menší „páku“ na ovlivnění jazykové normy. Čeština má navíc silnou lingvistickou tradici — Ústav pro jazyk český, Český národní korpus, živé jazykové poradenství — která slouží jako protiváha.
Za třetí: příčinný vztah mezi používáním umělé inteligence a horšími studijními výsledky není prokázán. Souvztažnost ze studie SYRI může odrážet stejně dobře fakt, že slabší studenti sahají po umělé inteligenci častěji.
A za čtvrté: projekt OpenEuroLLM vedený Janem Hajičem z UK, s celkovým rozpočtem 34 milionů eur — z toho přes 20 milionů z programu Digital Europe — na vícejazyčný model pro 32 evropských jazyků, ukazuje, že české výzkumné instituce nejen analyzují problém, ale aktivně pracují na řešení.
Co zůstává
Jiří Milička a jeho tým vytvořili korpus 21,5 milionu tokenů češtiny generované jazykovými modely — nástroj, který poprvé umožňuje měřit, jak se strojová čeština liší od lidské. Čtrnáct set kilometrů na sever funguje polský celostátní systém, který automaticky kontroluje každou závěrečnou práci na strojový obsah. V Praze, Brně a Ostravě mezitím pět univerzit řeší tentýž problém pěti různými způsoby.
Výzkum vlivu umělé inteligence na češtinu je v rané fázi. Víme, že modely češtině rozumějí lépe, než ji generují. Víme, že generovaná čeština je stylisticky chudší. Víme, že většina českých studentů s umělou inteligencí pracuje a že detekční nástroje jsou pro češtinu nespolehlivé. Nevíme, zda a jak umělá inteligence mění slovní zásobu a syntax generace, která s ní vyrůstá.
Odpověď na tuto otázku závisí na tom, jestli ji někdo položí dostatečně brzy — a dostatečně přesně.
Podkladová data a zdroje k datu zpracování: únor 2026. Tato analýza byla připravena s pomocí umělé inteligence. Klíčové studie: Milička et al. (2025), AI-Brown a AI-Koditex, arXiv:2509.22996; Milička et al. (2025), Benchmark of Stylistic Variation, arXiv:2509.10179; Šimeček (2025), MiniCzechBenchmark, NeurIPS LLM Evaluation Workshop; Fajčík et al. (2024), BenCzechMark, TACL; Agarwal, Naaman & Vashistha (2025), CHI; Weber-Wulff, Foltýnek et al. (2023), IJEI; průzkumy Scio AI Kompas, STEM/Nekrachni, JSNS.
Transparentnost tvorby:
Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude, Anthropic) byla využita jako technický nástroj pro rešerši, ověřování faktů a rozepsání autorovy předlohy.
Autor výstupy průběžně redigoval, ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez lidské kontroly. Všechny faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.
Postup je v souladu s požadavky Čl. 50 Nařízení EU 2024/1689 (AI Act) na transparentnost AI-generovaného obsahu. #poweredByAI





