Článek
Analýza — únor 2026
Stejná věta. Stejný model. Dvojnásobná cena. Proč čeština v éře umělé inteligence platí skrytou přirážku — a co s tím.
Preambule Všeobecné deklarace lidských práv má v angličtině 320 slov. V češtině 248. Kratší text, méně slov — a přesto, když ho pošlete přes tokenizér modelu GPT-4 (cl100k_base), čeština spotřebuje 724 tokenů oproti 360 anglickým. Dvojnásobek. Za kratší text.
Tým z české firmy NEWTON Technologies (provozující platformu Beey.ai) tento experiment provedl systematicky napříč jazyky. Výsledky ukázaly strukturální nerovnost zabudovanou do samotné architektury jazykových modelů: španělština stojí 1,5× víc než angličtina, čeština 2×, ukrajinština 3× a řečtina téměř 6×. A to jen za tokenizaci — za převedení textu do formátu, kterému model rozumí.
Čeština patří mezi jazyky, které velké jazykové modely zpracovávají dráž, pomaleji a s horším výsledkem. Není to chyba jednoho výrobce ani jednoho modelu. Je to důsledek architektury celého ekosystému — od tokenizace přes trénovací data po benchmarky. Pro deset milionů Čechů to má konkrétní důsledky, které sahají daleko za cenu API volání.
Daň za diakritiku
Když napíšete do ChatGPT anglické slovo beautiful, model ho zpracuje jako jeden token. Turecké güzel (totéž slovo) potřebuje tokeny tři. Český výraz překrásný si vyžádá minimálně dva — konkrétní počet závisí na tokenizéru daného modelu. Proč?
Velké jazykové modely nevidí slova. Vidí tokeny — podřetězce vytvořené algoritmem zvaným Byte-Pair Encoding (BPE). Tento algoritmus se učí z trénovacích dat, která byla historicky z více než devadesáti procent v angličtině (u GPT-3 přes 92 %, u LLaMA 2 téměř 90 %; novější modely tento podíl snižují, ale přesná čísla nezveřejňují). Anglická slova se proto kódují efektivně — často celá jako jeden token. Slova v jiných jazycích se musejí rozložit na menší kousky, někdy až na úroveň jednotlivých znaků.
Česká morfologie tento problém zhoršuje. Čeština má sedm pádů, tři rody, bohatou konjugaci a derivaci. Slovo nepřekračovat je pro rodilého mluvčího běžný tvar. Pro BPE tokenizér trénovaný na angličtině je to sekvence podřetězců, z nichž každý spotřebuje kapacitu modelu. Studie Petrov a kol. z roku 2023 systematicky zmapovala tuto „tokenizační přirážku“ napříč desítkami jazyků a tokenizérů — u anglocentrických modelů nalezla pro západoevropské jazyky přirážku v řádu desítek procent, pro jazyky s nelatinským písmem může být rozdíl více než desetinásobný.
Důsledky nejsou jen finanční. Každý model má omezené kontextové okno — maximální počet tokenů, které dokáže zpracovat najednou. Pokud čeština spotřebuje dvakrát víc tokenů na stejný obsah, efektivní kapacita kontextového okna se na polovinu zmenší. Český uživatel může do promptu vložit méně textu, dostat kratší odpověď a model má méně prostoru pro uvažování. Platí víc za méně.
Výkonnostní propast
Tokenizace je jen první vrstva problému. Skutečný dopad se projevuje v kvalitě odpovědí.
V roce 2024 a 2025 vznikly v České republice dva nezávislé benchmarky speciálně navržené pro měření výkonu jazykových modelů v češtině. CzechBench, vyvinutý na CIIRC ČVUT a VŠB Ostrava, obsahuje patnáct úloh — kombinaci přeložených mezinárodních benchmarků (ARC, GSM8K, MMLU, TruthfulQA) a původních českých datasetů. Umožňuje přímé srovnání výkonu stejného modelu v angličtině a češtině na paralelních úlohách.
BenCzechMark, vytvořený týmy z VUT Brno, Masarykovy univerzity, ČVUT, Univerzity Ostrava a Hugging Face, je ambicióznější — padesát úloh v osmi kategoriích, přičemž devadesát procent obsahu je nativně české, nikoliv přeložené. Testy pokrývají logické uvažování, gramatiku, faktické znalosti o české kultuře i schopnost odhadovat pravděpodobnost českých textů.
Výsledky obou benchmarků potvrzují to, co intuitivně tuší každý, kdo modely používá v češtině denně: výkon klesá. Studie MMLU-ProX z roku 2025, která testovala 36 modelů ve 29 jazycích na identických otázkách, zjistila propady až 24,3 procentního bodu mezi vysokozdrojovými a nízkozdrojovými jazyky.
Nejde přitom jen o přesnost. Výzkum prezentovaný na konferenci ICAIR 2025 zkoumal na vzorku 48 párových promptů z oblasti elementární geometrie, zda modely v češtině generují kratší a méně detailní odpovědi než v angličtině. Výsledek: v testované doméně byly anglické odpovědi systematicky delší a podrobnější, s konzistentně středním až velkým efektem (Cohen’s d). Zajímavé je, že předchozí studie téhož týmu (ECEL 2025) na úloze rozpoznávání geometrických vlastností nalezla opačný trend — české odpovědi byly detailnější. Celkový obraz tedy naznačuje, že jazykový bias v délce a detailnosti výstupů existuje, ale jeho směr a velikost se liší podle domény a typu úlohy. Širší benchmarky tento efekt zatím systematicky neměří.
Tým z AAAI 2025 (Language Ranker) to vysvětluje přímou korelací: výkon modelu v daném jazyce silně koreluje s podílem tohoto jazyka v trénovacích datech. Čím méně dat, tím horší výkon — a čeština s deseti miliony mluvčích a omezeným digitálním obsahem patří do střední kategorie. Ne tak špatně jako svahilština, ale daleko za angličtinou, čínštinou nebo španělštinou.
Architektura nerovnosti
Na světě existuje přibližně sedm tisíc jazyků. Největší multilingvální modely pokrývají necelou stovku. Čeština sice patří mezi ty podporované, ale její zastoupení v trénovacích datech je zlomek procenta — přesná čísla výrobci nezveřejňují, ale zpětné analýzy tokenizérů (které odrážejí složení trénovacích korpusů) naznačují řádově nízké jednotky procent.
Zpráva Stanford HAI z dubna 2025 pojmenovává tento problém jako „digitální propast“ vývoje jazykových modelů. Hlavní příčiny jsou dvě: nedostatek kvalitních dat a nedostatek dat vůbec. I jazyky s velkými komunitami mluvčích mohou být „nízkozdrojové“, pokud jejich digitální stopa je malá — vietnamština s téměř sto miliony mluvčích je toho příkladem.
Pro češtinu situaci komplikuje několik specifických faktorů. Morfologická bohatost znamená, že tatáž informace vyžaduje více různých slovních tvarů, a tedy větší slovník. Relativně malý trh omezuje komerční motivaci investovat do českých jazykových technologií. A většina NLP výzkumu zaměřeného na malé jazyky probíhá v institucích v zemích, kde se těmito jazyky nemluví — což vede k přehlížení kulturního kontextu a lokálních specifik.
Cross-lingual transfer — schopnost modelu přenášet znalosti z jednoho jazyka do druhého — funguje, ale nedokonale. Model natrénovaný převážně na anglických datech dokáže odpovídat česky, protože sdílená latentní reprezentace zachycuje sémantické vztahy napříč jazyky. Ale nuance se ztrácejí. Slovosled, idiomy, kulturní reference, pragmatika — to vše trpí. Model ví, co říct. Neví vždy, jak to říct česky přirozeně.
Cesty z propasti
Řešení existují, ale každé má svá omezení.
Masivně multilingvální modely jako Aya od Cohere (101 jazyků) nebo BLOOM se snaží pokrýt co nejvíce jazyků v jednom modelu. Výhodou je sdílení znalostí mezi příbuznými jazyky — čeština profituje ze slovenštiny, polštiny, částečně z němčiny. Nevýhodou je trade-off mezi šíří a hloubkou: model, který umí sto jazyků, neumí žádný z nich tak dobře jako specializovaný model.
Monolingvální fine-tuning — dotrénování existujícího modelu na českých datech — přináší měřitelné zlepšení, ale naráží na datový strop. Vietnamský tým ve spolupráci se Stanfordem dotrénoval pět LLM specializovaných na vietnamštinu a dosáhl konkurenceschopných výsledků. Pro jazyky s omezenými daty ale autoři upozorňují, že multilingvální modely někdy překonávají monolingvální fine-tuning — jednoduše proto, že fine-tuning nemá z čeho čerpat.
Retrieval-Augmented Generation (RAG) nabízí pragmatickou kompenzaci. Místo spoléhání na to, co model „ví“ z tréninku, systém vyhledá relevantní české dokumenty a předloží je modelu jako kontext. Kvalita odpovědí pak závisí primárně na kvalitě vyhledávání a indexace, nikoliv na zastoupení češtiny v trénovacích datech. Multilingvální embedding modely jako BGE-M3, které dokáží kódovat texty ve více než stovce jazyků do společného vektorového prostoru, tuto cestu usnadňují.
Národní benchmarky — CzechBench a BenCzechMark — jsou infrastrukturou, bez které nelze měřit pokrok. Bez nich by české AI komunity nevěděly, zda nový model je pro češtinu lepší nebo horší. S nimi mohou vývojáři cíleně optimalizovat.
Postupně se zlepšuje i samotná tokenizace. Novější tokenizéry (jako o200k_base u GPT-4o) nabízejí výrazně lepší multilingvální kompresi. Výzkum byte-level architektur (např. Byte Latent Transformer od Meta) slibuje principiální odstranění tokenizační nerovnosti, i když tyto přístupy zatím nejsou v produkčních modelech běžné. V České republice zvolil Seznam.cz cestu continued pre-trainingu — dotrénování open-source modelů (Mistral, LLaMA) na velkém objemu čistých českých dat, čímž kompenzuje jejich nízké zastoupení češtiny v původním pre-trainingu.
Strategická příležitost
V českém kontextu má jazyková propast paradoxně i strategický rozměr. Na trhu vyhledávání se potkávají dva přístupy: globální modely optimalizované pro angličtinu (Google), a lokální hráči, kteří rozumějí českému kontextu (Seznam). Kdo dokáže lépe překlenout jazykovou propast — ať už specializovaným RAG systémem, lepší tokenizací, nebo nativnějšími embeddingem — získává konkurenční výhodu, kterou globální hráč těžko replikuje.
Obdobná logika platí pro české firmy nasazující AI do zákaznického servisu, analýzy dokumentů nebo automatizace. Model, který v češtině halucinuje častěji, generuje kratší odpovědi a stojí dvakrát tolik, není neutrální nástroj — je nástroj s anglickým akcentem. Firmy, které tuto asymetrii rozpoznají a kompenzují (kvalitním RAG, fine-tuningem, evaluací na českých benchmarcích), budou mít před ostatními náskok.
NLP výzkum v České republice — na VUT Brno, ČVUT, Masarykově univerzitě, Univerzitě Ostrava, Karlově univerzitě — produkuje kvalitní výstupy s omezenými zdroji. BenCzechMark s padesáti úlohami a převážně nativním obsahem je na úrovni srovnatelné s benchmarky mnohem větších jazykových komunit. Co chybí, nejsou schopnosti — jsou to investice do infrastruktury, compute a dat, které by umožnily posunout se od měření problému k jeho řešení.
Jazyk, který model nevidí
Velký jazykový model nevidí jazyk. Vidí tokeny — číselné kódy odvozené z trénovacích dat, v nichž angličtina tvoří většinu. Kvalita odpovědí, délka výstupů, přesnost faktů, cena za zpracování — to vše se mění podle jazyka, kterým model oslovíte. Ne proto, že by čeština byla složitější (je, ale to by nemuselo být nevýhodou). Proto, že architektura celého ekosystému je optimalizovaná pro jeden jazyk a ostatní se vezou.
Preambule Všeobecné deklarace lidských práv deklaruje, že všichni lidé se rodí svobodní a sobě rovní. Za zpracování české verze této deklarace zaplatíte dvakrát tolik co za anglickou. Rovnost zatím platí jen pro lidi — ne pro jejich jazyky.
Klíčové zdroje: Beey.ai / NEWTON Technologies (tokenizační analýza CZ vs. EN, 2025); Stanford HAI „Mind the Language Gap“ (2025); BenCzechMark (Fajčík et al. 2024, VUT Brno + MU + ČVUT + UO + Hugging Face, 50 úloh); CzechBench (CIIRC ČVUT + VŠB Ostrava, 15 úloh); MMLU-ProX (Xuan et al. 2025, 29 jazyků, 36 modelů); ICAIR 2025 „English-Czech Output Bias in LLMs“ (Tichá, Přibyl, Krátká, UJEP); Language Ranker (Li et al., AAAI 2025); Petrov et al. „Language Model Tokenizers Introduce Unfairness Between Languages“ (NeurIPS 2023); Cohere „The AI Language Gap“ (policy primer 2024).
Metodická poznámka
Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude, Anthropic) byla využita jako technický nástroj pro rešerši, ověřování faktů a rozepsání autorovy předlohy.
Autor výstupy průběžně redigoval, ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez lidské kontroly. Všechny faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.
Postup je v souladu s požadavky Čl. 50 Nařízení EU 2024/1689 (AI Act) na transparentnost AI-generovaného obsahu. #poweredByAI






