Článek
Zadejte jazykovému modelu větu „Le bateau naviguait en douceur sur l’“ a sledujte, co se děje uvnitř. Výzkumný tým Lisy Schutové z Oxfordu v únoru 2025 aplikoval na model Llama-3.1-70B techniku zvanou logit lens — metodu, která umožňuje nahlédnout do mezilehlých vrstev neuronové sítě a dekódovat, jaké slovo model v daném okamžiku „zvažuje“. Výsledek: když model generoval francouzský text o lodi plující po vodě, v prostředních vrstvách se klíčová podstatná jména — „eau“ (voda), „lac“ (jezero), „soleil“ (slunce) — nejprve objevila v angličtině. Teprve v posledních vrstvách je model přeložil do francouzštiny.
Model dostal vstup ve francouzštině. Odpovídal ve francouzštině. Ale mezi tím přemýšlel anglicky.
Tento článek vysvětluje, proč to tak je, co to znamená pro deset milionů českých mluvčích a jaké techniky existují, aby se s tím dalo pracovat — i proč žádná z nich není skutečným řešením.
Tři fáze anglického myšlení
Tento mechanismus poprvé systematicky popsal Chris Wendler s kolegy ze švýcarské EPFL v roce 2024 v práci „Do Llamas Work in English?“ (arXiv:2402.10588). Analýzou modelů rodiny Llama-2 pomocí logit lens identifikovali tři fáze zpracování neanglického vstupu.
V první fázi — „vstupní prostor“ — model zpracovává jazykové jednotky v jazyce vstupu. Reprezentace jsou v této fázi nejednoznačné, daleko od jakéhokoli konkrétního výstupního slova. Ve druhé fázi — „konceptuální prostor“ — se v prostředních vrstvách objevuje významově správná odpověď, ale s vyšší pravděpodobností pro její anglickou verzi než pro verzi v jazyce vstupu. Ve třetí fázi — „výstupní prostor“ — se reprezentace konečně přesunou do oblasti specifické pro cílový jazyk a model vygeneruje odpověď v požadovaném jazyce.
Klíčový je závěr: abstraktní „konceptuální prostor“, v němž model provádí jádro svého zpracování, leží blíže angličtině než jakémukoli jinému jazyku. Wendler a kolegové to formulovali opatrně — mluvili o blízkosti k angličtině, nikoli nutně o anglickém mezikroku.
Navazující studie Schutové a kolegů (únor 2025, arXiv:2502.15603) šla dále. Tým z Oxfordu a Google DeepMind analyzoval čtyři otevřené modely — Llama-3.1-70B, Gemma-2-27B, Aya-23-35B a Mixtral-8×22B — při generování otevřeného textu ve francouzštině, němčině, holandštině a mandarínštině. Závěr byl jednoznačnější: modely provádějí klíčová rozhodnutí v reprezentačním prostoru nejbližším angličtině, bez ohledu na jazyk vstupu i výstupu. U významově „nabitých“ slov (podstatná jména, klíčové pojmy) se nejprve objevují anglické reprezentace, které jsou teprve poté převedeny do cílového jazyka. Funkční slova (předložky, spojky) tímto anglickým mezistupněm neprocházejí.
Autoři rovněž prokázali, že takzvané řídicí vektory — aktivační vektory používané k ovlivnění chování modelu — fungují lépe, když jsou zkonstruovány v angličtině, než když jsou zkonstruovány v jazyce vstupu. To potvrzuje, že anglický reprezentační prostor není jen vedlejší produkt měření, ale funkční jádro zpracování.
Proč zrovna angličtina
Příčina je prostá: data. Trénovací korpusy dominantních modelů jsou z 60–90 % anglické. Common Crawl, největší veřejně dostupný internetový korpus a základ většiny trénovacích datových sad, obsahuje přibližně 46 % anglického textu. Čeština představuje méně než 1 %. Méně zastoupená polovina úředních jazyků EU dohromady tvoří 2,4 % dat.
Když se neuronová síť s miliardami parametrů učí na tak nerovnoměrném rozložení, vybuduje si vnitřní reprezentace optimalizované pro dominantní jazyk. Angličtina se stane „rodným jazykem“ modelu — jazykem, v němž jsou konceptuální reprezentace nejbohatší, nejjemnější a nejspolehlivější.
Studie japonských modelů (Zhong et al. 2024, ACL Findings 2025) přitom ukázala, že to nemusí být nevyhnutelné. Model LLM-jp, předtrénovaný na vyvážené směsi japonštiny a angličtiny, vykazoval japonsky zaměřené vnitřní reprezentace. Model Swallow, dotrénovaný na japonštině, používal smíšený režim — japonštinu i angličtinu v prostředních vrstvách. Pouze Llama-2, s dominantně anglickým tréninkem, konzistentně přecházela přes angličtinu.
Závěr je důležitý: anglické myšlení není vlastnost architektury transformeru. Je to důsledek trénovacích dat. Model trénovaný na dostatečném množství kvalitní češtiny by „myslel“ česky.
Co to znamená pro češtinu
Pro českého uživatele má anglické myšlení modelů tři konkrétní důsledky.
Ztráta výkonu při uvažování. Když model řeší matematickou úlohu zadanou česky, musí současně zvládnout dva úkoly: porozumět českému zadání a provést výpočet. Pokud uvažování probíhá v angličtině, model nejprve vnitřně „přeloží“ zadání, pak uvažuje, pak přeloží výsledek zpět. Každý překlad zavádí šum. Studie Baruy et al. (srpen 2025, arXiv:2508.14828) systematicky zkoumala řetězené uvažování v devíti neanglických jazycích a zjistila, že propast mezi anglickým a neanglickým uvažováním se prohlubuje u úloh vyžadujících dlouhé, vícekrokové řetězce myšlení. Matematické úlohy jsou postiženy nejvíce.
Kulturní a oborový filtr. Model, který „myslí anglicky“, nevyhnutelně aplikuje angloamerický konceptuální rámec. Yong et al. (květen 2025, arXiv:2505.05408) prokázali, že modely trénované na anglickém uvažování špatně zobecňují mimo přírodovědné a technické obory — zejména selhávají na otázkách z humanitních věd a kulturních znalostí. Česká historie, právní systém a kulturní reference jsou pro model zpracovávány přes anglický filtr, čímž dochází k interpretačnímu zkreslení.
Nesouměrnost v podrobnosti odpovědí. Empirická pozorování ukazují, že anglické odpovědi jsou systematicky delší a podrobnější než české — přestože čeština je tvaroslovně bohatší jazyk. Model v angličtině „přemýšlí nahlas“ podrobněji, protože jeho anglický konceptuální prostor je bohatší. V češtině generuje stručnější, méně propracované výstupy.
Tři obejití problému — a proč nestačí
Výzkumná komunita reagovala vývojem pobídkových technik, které anglické myšlení modelů nevyřeší, ale využijí ho ve prospěch uživatele.
Mezijazykové pobídkování (XLT). Huang et al. (2023, EMNLP Findings) navrhli šablonu, která modelu výslovně říká: přemýšlej krok za krokem v angličtině, pak formuluj výsledek v cílovém jazyce. Hodnocení na sedmi srovnávacích sadách pokrývajících uvažování, porozumění i tvorbu textu prokázalo zlepšení přes 10 procentních bodů u aritmetického uvažování a otevřených otázek. XLT také snižuje rozptyl výkonu mezi jazyky — zmenšuje mezeru mezi nejlepším a nejhorším jazykem.
Princip je elegantní: místo potlačování anglického mezikroku ho využívá. Model dostane pokyn pracovat ve svém „rodném“ jazyce a jen výstup formulovat česky. Problém: uživatel musí vědět, že tato technika existuje, a aktivně ji používat. Většina českých uživatelů to neví.
Slovníkové vkládání (DIP). Lu et al. (listopad 2024, arXiv:2411.01141) zvolili jinou cestu: do neanglického dotazu vkládají anglické ekvivalenty klíčových slov ze slovníku. Model tak dostane dvojjazyčný vstup, který mu usnadní vnitřní převod do angličtiny. Technika byla testována na 200 jazycích z jazykové sady FLORES-200 a na matematickém měřítku GSM8K přinesla výrazné zlepšení oproti standardnímu způsobu zadávání.
Slovníkové vkládání je účinnější než XLT u jazyků s malým množstvím trénovacích dat, protože řeší problém již na vstupu — pomáhá modelu přesněji porozumět zadání. Pro češtinu, kde je problémem spíše kvalita uvažování než porozumění vstupu, je přínos menší, ale měřitelný.
Vynucení jazyka uvažování. Yong et al. (květen 2025, arXiv:2505.05408) zkoumali, co se stane, když modelu výslovně zakážete přemýšlet anglicky a přinutíte ho generovat řetězec úvah v cílovém jazyce. Zjištění: u dobře zastoupených jazyků (francouzština, němčina, španělština) je uvažování v cílovém jazyce srovnatelné s anglickým. U málo zastoupených jazyků výkon prudce klesá. Modely přinucené přemýšlet v málo zastoupeném jazyce navíc generují delší a méně účinné řetězce uvažování — platí více za horší výsledek.
Pro češtinu — středně zastoupený jazyk — je situace smíšená. Barua et al. (2025) zjistili, že u dobře zastoupených jazyků funguje uvažování v daném jazyce na úrovni angličtiny, ale u ostatních jazyků anglický mezikrok stále vítězí.
Vzorec „cituj a přemýšlej“
Jedním z nejpozoruhodnějších zjištění posledního roku je identifikace vzorce, který Yong et al. nazvali „cituj a přemýšlej“ (quote-and-think). Když anglicky zaměřený uvažovací model dostane úlohu v neanglickém jazyce, jeho řetězec úvah typicky obsahuje přímé citace z neanglického zadání v uvozovkách, obklopené anglickým textem uvažování.
Model doslova „cituje“ českou frázi, pak o ní „přemýšlí“ anglicky, pak cituje další frázi. Je to propracovaný mechanismus mezijazykového přenosu — model využívá svou mnohojazyčnou schopnost k porozumění vstupu a svou anglickou převahu k uvažování. Zároveň to ale potvrzuje zásadní nesouměrnost: model neumí o českém textu přemýšlet česky.
Co z toho plyne
Všechna tři obejití sdílejí společný rys: přijímají anglické myšlení jako danost a snaží se ho využít. Jsou to obejití problému, nikoli jeho řešení. A mají tři zásadní omezení.
Za prvé: fungují především pro formalizovatelné úlohy. Matematika, logika, strukturované otázky — to jsou oblasti, kde anglický mezikrok nepřináší velké ztráty, protože jádro problému je jazykově nezávislé. U úloh vyžadujících hluboké porozumění českému kontextu — právo, dějiny, kulturní nuance, ironie, humor — je anglický konceptuální prostor nedostatečný a žádná pobídková technika to nenapraví.
Za druhé: vyžadují zkušeného uživatele. Běžný český uživatel ChatGPT, Claude nebo Gemini neví o mezijazykovém pobídkování. Neví, že by měl modelu říct „přemýšlej anglicky“. Neví, že model v češtině generuje stručnější a méně podrobné odpovědi. Dostává zhoršený produkt, aniž by o tom věděl.
Za třetí: potvrzují, že problém je v datech, ne v pobídkách. Studie japonských modelů (Zhong et al. 2024) ukázala jasně: model trénovaný na dostatečném množství cílového jazyka „myslí“ v tom jazyce. Model SeLLMa od Seznamu, dotrénovaný na českých textech metodou pokračujícího předtrénování, zlepšuje kvalitu češtiny — ale do jaké míry přesouvá konceptuální prostor blíže k češtině, veřejně publikovaná data neříkají.
Skutečné řešení není lepší pobídka. Skutečné řešení je víc českých dat v tréninku, lepší český tokenizér a modely, jejichž konceptuální prostor není jednostranně nakloněn k angličtině. Přesně to je cílem projektů jako OpenEuroLLM (koordinátor ÚFAL MFF UK, rozpočet 37,4 mil. eur, první modely v polovině 2026) a českého modelu csmpt7b od BUT-FIT (VUT Brno), který jako první použil český tokenizér. Ale do doby, než takové modely budou běžně dostupné, platí: když mluvíte česky s jazykovým modelem, odpovídá vám někdo, kdo přemýšlí anglicky a teprve pak překládá.
Praktický návod pro českého uživatele
Dokud je realita taková, jaká je, existuje několik měřitelně účinných postupů.
U úloh vyžadujících uvažování (matematika, rozbor, plánování) přidejte na konec dotazu pokyn: „Přemýšlej krok za krokem v angličtině, odpověz v češtině.“ Podle dat ze studie XLT to přináší průměrné zlepšení přes 10 procentních bodů na srovnávacích sadách zaměřených na uvažování.
U složitých otázek vyžadujících český kontext (právo, historie, úřední záležitosti) naopak anglický mezikrok nepomůže — model nemá dostatečné anglické znalosti o českých reáliích. Zde je účinnější poskytnout kontext přímo v dotazu: relevantní pasáže zákona, historická data, definice pojmů.
U tvůrčího psaní v češtině počítejte s tím, že model bude generovat formálnější, méně idiomatický text s anglicizující větnou stavbou. Pro přirozenější češtinu je třeba výslovně pokynout: „Piš přirozenou hovorovou češtinou“ nebo „Používej české frazeologické obraty.“
A u všech úloh platí: pokud chcete podrobnější odpověď, výslovně o ni požádejte. Model v češtině ve výchozím nastavení generuje kratší výstupy než v angličtině — ne proto, že by měl méně co říct, ale proto, že jeho český „výstupní prostor“ je chudší.
Klíčové zdroje
Wendler et al. (2024): „Do Llamas Work in English? On the Latent Language of Multilingual Transformers.“ EPFL. arXiv:2402.10588. Analýza Llama-2 pomocí logit lens, tři fáze jazykového zpracování, anglický konceptuální prostor. arXiv
Schut et al. (2025): „Do Multilingual LLMs Think In English?“ Oxford, Google DeepMind. arXiv:2502.15603. Rozšíření na 4 modely a otevřenou generaci, řídicí vektory potvrzují anglickou převahu. arXiv
Huang et al. (2023): „Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting.“ Microsoft Research. EMNLP Findings 2023. Šablona mezijazykového pobídkování, zlepšení 10+ bodů. ACL Anthology
Lu et al. (2024): „Dictionary Insertion Prompting for Multilingual Reasoning.“ arXiv:2411.01141. Technika slovníkového vkládání, testováno na 200 jazycích. arXiv
Yong et al. (2025): „Crosslingual Reasoning through Test-Time Scaling.“ arXiv:2505.05408. Vzorec „cituj a přemýšlej“, vynucení jazyka, omezení u málo zastoupených jazyků. arXiv
Barua et al. (2025): „Long Chain-of-Thought Reasoning Across Languages.“ arXiv:2508.14828. Systematická studie 9 jazyků, propast se prohlubuje u vícekrokového uvažování. arXiv
Zhong et al. (2024): „Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in?“ ACL Findings 2025. Japonské modely jako důkaz, že anglický mezikrok není nevyhnutelný. arXiv
OpenEuroLLM: Koordinátor ÚFAL MFF UK, rozpočet 37,4 mil. eur, 24 úředních jazyků EU. openeurollm.eu
Fajčík et al. (2024): „BenCzechMark: A Czech-centric Multitask and Multimetric Benchmark for Large Language Models.“ BUT-FIT, VUT Brno. arXiv:2412.17933. 50 úloh, první komplexní české měřítko pro jazykové modely. arXiv
Transparentnost tvorby:
Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude, Anthropic) byla využita jako technický nástroj pro rešerši, ověřování faktů a rozepsání autorovy předlohy.
Autor výstupy průběžně redigoval, ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez lidské kontroly. Všechny faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.
Postup je v souladu s požadavky Čl. 50 Nařízení EU 2024/1689 (AI Act) na transparentnost AI-generovaného obsahu. #poweredByAI





