Z drahého experimentu standardem: devět let architektury Mixture-of-Experts

Článek

K terminologii: anglických termínů je tu hodně. Kde to dávalo smysl, použil jsem český ekvivalent, ale názvosloví oboru je anglické a doslovný překlad často spíš mate. U neznámého pojmu doporučuji zeptat se AI asistenta („co je X v kontextu LLM") - je to názornější než slovník. Jen základ rovnou: sparse = řídký, dense = hustý.

Číslo, které vypadalo jako překlep

26. prosince 2024 publikoval čínský DeepSeek-AI technickou zprávu k modelu V3. Číslo, které se objevilo na první stránce, působilo jako tisková chyba: 671 B parametrů celkem, 37 B aktivních na token, trénink na 14,8 bilionu tokenů. Společnost uvedla, že hlavní fáze předtrénování zabrala přibližně 2,664 milionu H800 GPU-hodin - řádově méně než to, co publikoval Meta při tréninku Llama 3 405B. Za pár týdnů se z toho stalo jméno na všech srovnávacích žebříčcích. Tím se uzavřel oblouk, který začal v roce 2017 v Googlu jednou zdánlivě bláznivou prací s názvem „Outrageously Large Neural Networks“.

DeepSeek-V3 není jediný model, který by stačil k vysvětlení posunu. Otevřený Kimi K2 od Moonshot AI (červenec 2025) jde na bilion parametrů s 32 B aktivních: 384 routovaných expertů plus jeden sdílený, na každý token se jich aktivuje osm. Llama 4 od Mety (duben 2025) je její první MoE rodina vůbec - varianta Scout má 109 B / 17 B aktivních a kontext až 10 milionů tokenů; varianta Maverick má 400 B / 17 B aktivních. Qwen3-235B-A22B od Alibaby (květen 2025) má 128 expertů a top-8 routing. MiniMax-Text-01 (leden 2025) kombinuje 456 B / 45,9 B aktivních s Lightning Attention. Mixtral 8×7B, který se v lednu 2024 stal prvním masově nasazeným otevřeným MoE modelem, dnes vypadá jako prototyp.

Vrátí-li se člověk k Shazeerově práci z roku 2017 (arXiv:1701.06538), zjistí, že hlavní teze byla rozhodnuta tehdy: model se sparsely-gated MoE vrstvou má kapacitu výrazně nad hustým základním modelem, ale aktivuje na vzorek jen malou podmnožinu parametrů. Z toho plyne jednoduchá, ale netriviální implikace: parametry a počet operací (FLOP) lze rozpojit. Co se odehrálo mezi 2017 a 2026, byla v podstatě obtížná inženýrská otázka, jak tu myšlenku přenést z LSTM do světa architektury Transformerů, a jak stabilizovat trénink ve škále, ve které původní MoE prostě kolabovala.

Krátce řečeno: dnešní MoE modely fungují díky čtyřem postupně dořešeným problémům - formulaci routingu, load balancingu, architektonickému vzoru fine-grained / shared expertů a stabilizaci tréninku ve velkém měřítku. Žádné kouzlo. Čtyři inženýrské vrstvy poskládané na sebe.

Od Shazeera ke Switch Transformeru: zrod routingu

Původní koncept směsi expertů - gating síť, která rozděluje vstupní prostor mezi více samostatných sítí - pochází od Jacobse, Jordana, Nowlana a Hintona z roku 1991 (Neural Computation 3(1), „Adaptive Mixtures of Local Experts”). Po většinu následujících tří dekád zůstala myšlenka spíše teoretická.

Shazeer a kolegové (vedle nich Mirhoseini, Maziarz, Davis, Le, Hinton a Dean) ji v roce 2017 oživili v textu „Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer“ (arXiv:1701.06538). Vložili MoE vrstvu mezi LSTM vrstvy strojového překladu a v souhrnu trénovali model s až 137 miliardami parametrů. Klíčovou technickou inovací byl noisy top-k gating: pro každý vstup se spočítá skóre přes všechny experty, k logitům se přičte gaussovský šum úměrný naučené škále, a vybere se top-k expertů; výstup je vážený součet jejich výstupů. Šum zlepšuje exploraci a brání tomu, aby router degeneroval na konstantní volbu. K tomu autoři přidali dvě pomocné loss funkce - jednu pro vyrovnání důležitosti, druhou pro vyrovnání zatížení expertů. Bez nich systém kolabuje: router si vybere několik oblíbených expertů, ty se rychleji trénují, stávají se atraktivnějšími, a pozitivní zpětná vazba pohřbí zbytek modelu.

Skok do Transformer světa udělala práce GShard od Lepikhina a kolegů (arXiv:2006.16668, 2020), která škálovala mnohajazyčný překlad na ~600 B parametrů s 2 048 experty a routingem top-2. Z GShardu pochází také slovník, který se používá dodnes: capacity factor (kolik tokenů smí expert přijmout, než začne tokeny dropovat), expert parallelism (experti distribuovaní napříč zařízeními) a all-to-all komunikace (dispatch tokenů k expertům a combine zpět). All-to-all je hlavní komunikační úzké hrdlo MoE tréninku; jeho cena roste s počtem zařízení a je úměrná objemu dat dělenému bisekční šířkou pásma.

V lednu 2021 zjednodušil Switch Transformer (Fedus, Zoph, Shazeer, arXiv:2101.03961) routing na top-1. Každý token jde právě k jednomu expertovi, a kapacitní buffer rozhoduje, kdy se tokeny přes reziduální cestu prostě přeskočí. Switch byl první model, který přesvědčivě ukázal, že lze trénovat řídké modely se stovkami miliard parametrů v bfloat16. Mimo to publikoval jednu z prvních destilací sparse → dense: ukázal, že velký řídký model lze při kompresi 10 až 100× - tedy s odstraněním až 99 % parametrů - destilovat do malého hustého studenta, který si zachová zhruba 30 % kvalitativního náskoku učitele nad hustým základním modelem. Z toho plyne praktická lekce, na kterou se občas zapomíná: MoE model lze v některých případech předat hustému studentovi a získat tak rozumný kompromis mezi tréninkovou efektivitou a inferenčním nákladem.

Stabilitu trénování velkých MoE modelů řešila práce ST-MoE od Zopha a kolegů (arXiv:2202.08906, 2022). Hlavní příspěvek se jmenuje router z-loss: penalizuje velké router logity formou (log Σ exp(x_j))² a tím drží numerické rozsahy v krotitelných mezích. S koeficientem 10⁻³ zlepšuje stabilitu s minimální ztrátou kvality. Stalo se z toho de facto povinné koření každého sparse modelu. ST-MoE je také první práce, která pečlivě analyzovala, co se experti vlastně učí.

Mixtral, DeepSeekMoE a kanonický vzor 2024

V prosinci 2023, respektive lednu 2024 přišlo Mistral AI s Mixtralem 8×7B (technická zpráva arXiv:2401.04088). Model je založený na Mistral 7B; každá z 32 vrstev má 8 expertů, routing je top-2, experti jsou jednovrstvé MLP se SwiGLU aktivací. Číselně: celkem 47 B parametrů, ale na token se aktivuje přibližně 13 B. Kontext 32 k tokenů, otevřená Apache 2.0 licence. O něco později (duben 2024) přibyl Mixtral 8×22B se 141 B / 39 B aktivních.

Mixtral nebyl architektonickou revolucí - top-2 routing osmi expertů byl víceméně přímý dědic GShardu. Význam byl praktický: poprvé existoval otevřený, dostupný, dobře dokumentovaný MoE model, na kterém si komunita mohla osahat všechno od vLLM serveru po LoRA fine-tuning. Mimo to Mixtral přinesl první důkladně publikovanou analýzu expertní specializace v moderním LLM.

Skutečným teoretickým posunem byla práce DeepSeekMoE z ledna 2024 (Dai a kolektiv, arXiv:2401.06066, ACL 2024). DeepSeekMoE pojmenoval dva problémy klasického MoE návrhu: knowledge hybridity (jeden expert musí mít tolik různých znalostí, že nestihne specializovat) a knowledge redundancy (různí experti se musí učit totéž). Na obojí navrhl dvě navzájem podpůrné techniky.

První je fine-grained expert segmentation: místo N expertů velikosti standardní FFN se zavede mN jemnějších expertů (každý m-krát menší vnitřní dimenze), a aktivuje se mK z nich místo K. Výpočetní cena zůstává konstantní, ale počet možných kombinací aktivních expertů prudce roste. Při 64 jemných expertech s top-8 routingem má model 4,4·10⁹ kombinací proti 120 kombinacím u 16 expertů s top-2. Specializace se má kam rozvinout.

Druhou je shared expert isolation: jeden či několik expertů je vždy aktivních a nahrazuje úlohu „obecných znalostí“. Routovaní experti se tak nemusí společné věci učit dokola, a mohou skutečně specializovat. DeepSeekMoE 16B se dvěma sdílenými a 64 routovanými experty (na token jich aktivuje šest) dosahuje výkonu hustého DeepSeek 7B a LLaMA-2 7B při zhruba 40 % výpočtu.

Tento vzor - fine-grained + shared - zdomácněl. Najdete ho v DeepSeek-V2 (236 B / 21 B aktivních, 2 sdílení a 160 routovaných expertů), v DeepSeek-V3 (671 B / 37 B, 1 sdílený a 256 routovaných), v Kimi K2 (1 T / 32 B, 1 sdílený a 384 routovaných). Llama 4 jej částečně přebírá se střídáním MoE a dense vrstev v některých variantách.

DeepSeek-V3 přidal navíc další teoretický posun, který se podle všeho rovněž prosadí: auxiliary-loss-free load balancing (Wang a kolektiv, arXiv:2408.15664, 2024). Klasická auxiliary loss má jednu nepříjemnou vlastnost - její gradient interferuje s hlavní ztrátovou funkcí modelu. Síla regularizace se musí nastavit tak, aby vyrovnávala, ale neničila kvalitu, a tahle rovnováha je křehká. DeepSeek-V3 ji obchází elegantně: pro každý expert se zavede bias term b_i, který se přičítá k affinity skóre při výběru top-k, ale gating hodnota (váha kombinace) se počítá z původního affinity skóre. Po každém kroku se bias dynamicky upravuje - sníží se pro přetížené experty, zvýší se pro nevyužité, rychlostí γ. Hlavní gradient sítě je tak balancingem nedotčen; balancing běží paralelně jako kontrolní smyčka.

Z hlediska čistoty návrhu je to pěkné: oddělit dvě funkce (kvalita predikce / vyrovnanost zatížení), které dosud sdílely jeden gradient, do dvou nezávislých signálů. Pro praxi to znamená méně rušení a měřitelně lepší výsledky při stejném počtu parametrů.

Co se experti vlastně učí

Jedním z empirických zjištění, které se v MoE literatuře opakuje napříč modely a které intuitivně překvapuje, je tohle: experti se nespecializují podle vysokoúrovňových témat. Žádný „matematický expert“, žádný „kódový expert“, žádný „expert na biologii“. Místo toho specializují podle syntaktických a pozičních vzorů - interpunkce, spojek, určitých morfémů, odsazení.

Studie Mixtralu to shrnuje jednoznačně: u rozdělení tokenů mezi experty nepozoruje žádné zřetelné vzory podle tématu - distribuce je velmi podobná pro články z arXivu, pro biologii i pro filozofii. Autoři zároveň pozorovali silnou poziční lokalitu - po sobě jdoucí tokeny často putují ke stejnému expertovi, a tento efekt zesiluje ve vyšších vrstvách modelu (typicky vrstvy 15 a 31 z 32). Tokeny jako klíčové slovo self v Pythonu nebo specifický whitespace pattern v odsazení routují konzistentně, ale ne podle „o čem zrovna je řeč“.

ST-MoE šla v analýze dál a dospěla k rozlišení: encoder experti specializují, decoder experti ne. V encoderu se najdou experti, kteří se učí interpunkci, spojky, členy, slovesa; v decoderu je distribuce mnohem méně čitelná. A ve vícejazyčných modelech experti nespecializují podle jazyka, jak by mohla naivní intuice čekat - naopak, podobné syntaktické role napříč jazyky často padnou ke stejnému expertovi.

Z hlediska interpretovatelnosti je to mírná porážka antropomorfních metafor. „Expert“ v MoE není člověk, který umí jednu věc. Je to spíš naučený filtr, který reaguje na nízkoúrovňový vzor v reprezentaci tokenu, a sémantická koherence vzniká až interakcí mnoha takových filtrů napříč vrstvami. Práce „A Closer Look into Mixture-of-Experts in Large Language Models“ (Lo a kolektiv, arXiv:2406.18219, Findings NAACL 2025) analýzu rozšiřuje na Mixtral, DeepSeekMoE a Grok-1 a uvedené pozorování vesměs potvrzuje.

Praktická implikace: pokud chcete využít MoE model k interpretačním účelům (například „vypněte expertní část, která rozhodne o etických aspektech”), narazíte. Specializace existuje, ale není ve výrazech, ve kterých ji člověk přirozeně myslí.

Zákony škálování a teoretická opodstatněnost sparsity

Otázka „proč MoE funguje“ se dlouho zodpovídala víceméně intuitivně: parametry dají modelu víc kapacity, sparsita drží výpočetní cenu nízko. Matematicky čistější odpověď přišla v práci Krajewského a Ludziejewského a kolektivu „Scaling Laws for Fine-Grained Mixture of Experts“ (arXiv:2402.07871, ICML 2024).

Autoři přidali k tradiční scaling law (zákonům škálování) - loss jako funkce velikosti N a tokenů D třetí proměnnou - granularitu G, definovanou jako poměr velikosti FFN k velikosti jednoho experta. G=1 znamená standardní expert velikosti celé FFN; G=2 znamená každý expert poloviční. Z fitu na velký rozsah experimentů plyne dvojí závěr: rozdíl v efektivitě mezi hustými a MoE modely se s rostoucí velikostí modelu a tréninkovým rozpočtem rozšiřuje; a běžná praxe nastavovat velikost expertů tak, aby kopírovala velikost feed-forward vrstvy, není optimální skoro při žádném výpočetním rozpočtu.

Jinými slovy: výhoda MoE roste s rozpočtem (na rozdíl od některých dřívějších scaling law studií, které tvrdily opak), a optimální granularita G je obecně větší než 1. To přímo zdůvodňuje, proč DeepSeek-V3 jde na 256 expertů s top-8 a proč Kimi K2 jde na 384 - historie ukázala, že hrubozrnný návrh á la Mixtral 8×7B nechává na stole prostor.

Toto je teoretická vrstva, kterou bych dnes každému, kdo navrhuje vlastní MoE, doporučil přečíst dvakrát. Definuje, jak řešit společnou optimalizaci tří hyperparametrů (N, D, G) pro daný výpočetní rozpočet. Není to definitivní jistota - predikce mají rozumný interval spolehlivosti - ale je to jediná dostupná systematická odpověď na otázku „jak velký expert by měl být“.

Empiricky vychází, že mezi sparsity a kvalitou je smysluplný kompromis jen v určitém režimu. Při velmi malém modelu a velmi malém batch size se MoE obvykle nevyplatí - utilizace expertů je nízká, all-to-all komunikační režie pohlcuje úspory. Při velkém modelu a velkém batch size sparsita dominuje. Mezi tím je široká šedá zóna, ve které rozhodují konkrétní detaily nasazení.

Mixture-of-Depths, Mamba, Jamba a širší řídkost

MoE není jediné odvětví podmíněného výpočtu, které je v roce 2026 produkčně relevantní. Souběžně se prosadily nebo prosazují další architektonické principy, které sdílejí tutéž filozofii - vykonat na danou pozici jen tolik výpočtu, kolik je nutné.

Mixture-of-Depths (Raposo a kolektiv, arXiv:2404.02258, DeepMind 2024) aplikuje stejnou myšlenku jako MoE, ale na osu hloubky místo šířky. V každé vrstvě router vybere top-k tokenů, které vrstvou skutečně projdou; ostatní tokeny ji přeskočí přes reziduální cestu. Kapacita je definována dopředu, takže výpočetní graf zůstává statický. Iso-FLOP MoD model je při post-training samplingu až o 50 % rychlejší než hustý základní model. Z teoretického pohledu je MoD vlastně degenerovaný MoE se dvěma „experty“ na vrstvu - samotnou vrstvou a identitou.

V oddělené vývojové větvi se posunuly State Space Models. Mamba (Gu a Dao, arXiv:2312.00752, 2023) zavedla selektivní SSM s parametry závislými na vstupu a hardware-aware paralelním scanem. Klíčový závěr: lineární komplexita v délce sekvence (na rozdíl od kvadratické u attention), 5× vyšší inferenční propustnost, a v 3B verzi překonává Transformery stejné velikosti. Mamba-2 (Dao a Gu, arXiv:2405.21060, 2024) navíc formálně propojila SSM a attention pod hlavičkou structured state space duality.

Praktická konvergence se ukázala u Jamby od izraelského AI21 Labs (Lieber a kolektiv, arXiv:2403.19887, 2024). Jamba spojuje Transformer attention, Mamba SSM a MoE v jednom modelu: poměr attention:Mamba je 1:7, MoE je v každé druhé vrstvě, 12 B aktivních parametrů z 52 B celkových. Hlavní praktický zisk je v paměti pro inferenci s dlouhým kontextem: díky hybridní Attention-Mamba architektuře zabere KV cache Jamby i při 256k kontextu jen 4 GB, oproti zhruba 32 GB u Mixtralu při stejném kontextu. Propustnost při dlouhém kontextu je 3× vyšší než u Mixtral 8×7B. Jamba-1.5-Large (arXiv:2408.12570, 2024) škálovala stejný princip na 94 B aktivních.

MiniMax-Text-01 z ledna 2025 (arXiv:2501.08313) jde podobnou cestou, jen místo Mamby používá Lightning Attention - I/O-aware lineární attention variantu. Vrstvy se střídají: jeden softmax blok na sedm lightning bloků, k tomu MoE s 32 experty. Native Sparse Attention od DeepSeek (arXiv:2502.11089, ACL 2025) přidává nativně trénovatelnou řídkou attention se třemi větvemi (komprese, výběr bloků, sliding window) a uvádí 9× zrychlení forward passu, 6× backward passu a 11,6× decode passu vůči full attention.

Co z toho plyne: dichotomie „dense vs. sparse“ už není ostrá. Frontier modely 2025–2026 míchají sparsitu na úrovni expertů (MoE), na úrovni vrstev (MoD), na úrovni attention (sparse / linear attention) a na úrovni architektury (hybrid SSM-Transformer-MoE). Sparsita se stala návrhovým principem, který se aplikuje na různé komponenty nezávisle.

Kdy MoE nedává smysl: poctivá protistrana

Argumentem proti bezmyšlenkovitému nasazení MoE je celá řada konkrétních situací.

První a nejvážnější námitka je paměťová stopa. MoE redukuje FLOPy na token, ale paměť je úměrná celkovému počtu parametrů. Mixtral 8×7B potřebuje v paměti všech 47 B parametrů, i když na token aktivuje jen 13 B. Pro inferenci na hraně paměti (single GPU, edge deployment, mobile) je to obvykle základní překážka. Aplikace agresivních kvantizací (Llama 4 v Int4, Jamba ExpertsInt8 s INT8 váhami převáděnými na BF16 před výpočtem) tento problém zmírňuje, ale neodstraňuje.

Druhá námitka je batch size sensitivity. MoE se vyplatí, jen když každý expert dostane dost tokenů. Při batch size 1 (typický případ užití v chatu s jedním uživatelem) je utilizace expertů extrémně nízká a hardware běží pod kapacitou. V produkci to znamená, že MoE modely se podstatně lépe škálují na sdíleném inferenčním serveru s mnoha souběžnými uživateli než v jedno-streamovém režimu. Praktická hranice se pohybuje kolem osmi tokenů na expert; pod ní efektivní utilizace strmě klesá.

Třetí námitka je all-to-all komunikační režie. Při distribuci expertů přes více GPU musí každá vrstva provést dvě all-to-all operace (dispatch + combine). To je hlavní limit škálování. DeepSeek-V3 ho zmírnil node-limited routingem (každý token se odešle nejvýš na čtyři uzly - princip zděděný z device-limited routingu DeepSeeku V2) a computation-communication overlapem. Ale v homogenní cloudové infrastruktuře s pomalou interconnect (typicky cross-rack v běžných cloudech) zůstává režie bolestivá.

Čtvrtá je fine-tuning fragility. MoE modely jsou náchylné k overfittingu při fine-tuningu, hlavně na malých datech. Distribuce tokenů přes experty se na malém datasetu může degenerovat a nerovnoměrné využití expertů ztěžuje konvergenci. V některých případech je řešením zmrazit router a fine-tunovat jen váhy expertů; v jiných nepomůže nic, a hustý student model destilovaný z MoE učitele je čistší volba.

Pátá je debugging a interpretovatelnost. Routing přidává netriviální vrstvu nedeterminismu - drobná změna ve vstupu může token přesměrovat k jinému expertovi a kvalitativně změnit výstup. Pro produkční systémy s požadavky na reprodukovatelnost je to riziko.

Kdyby měl člověk shrnout nejostřejší formu kritiky: MoE je optimalizace pro tréninkový rozpočet a velký paralelní inferenční server. V single-stream low-latency inferenci na omezeném hardwaru zůstávají husté modely často konkurenceschopnější, hlavně pokud se k nim přidá speculative decoding (EAGLE-3, Medusa). Kdo dnes optimalizuje single-stream latency, neměl by skočit na MoE jen proto, že je v módě.

A přesto: pro modely na frontier hranici, trénované jednou s rozpočtem desítek milionů dolarů a provozované milionům uživatelů paralelně, dnes není konkurence. DeepSeek-V3 vyšel za odhadovaných 5,576 milionu dolarů (celkový trénink, tedy 2,788 milionu H800 GPU-hodin při 2 dolarech za hodinu, podle technické zprávy). Hustý model srovnatelné kvality by potřeboval násobky. Tahle ekonomická úvaha je tichý důvod, proč MoE převzala open-weight scénu.

Co z toho plyne pro rok 2026

Sparsita se nestala zázračnou pilulkou. Stala se inženýrským standardem, jehož aplikace má jasná pravidla. Pokud trénujete frontier model a máte k dispozici velký compute, MoE s fine-grained experty, sdíleným expertem a auxiliary-loss-free balancingem je dnes pravděpodobně optimální volba. Hyperparametry - granularita, počet routovaných expertů, top-k - odvozujte ze scaling laws, ne z intuice. Pokud servírujete model statisícům uživatelů paralelně, MoE má smysl. Pokud servírujete single-stream low-latency aplikaci, ne.

A pokud chcete tomu všemu rozumět teoreticky, vrátí se vám čtení několika klíčových prací s velkou návratností: Shazeer 2017 pro koncept, Switch Transformer 2021 pro routing a auxiliary loss, ST-MoE 2022 pro stabilitu a expertní specializaci, DeepSeekMoE 2024 pro fine-grained / shared návrh, Krajewski 2024 pro scaling laws, Wang 2024 pro auxiliary-loss-free balancing. Kdo přečte tuhle šestici se ctí, má vystaráno na nejbližší dva roky vývoje.

Otevřených otázek zůstává dost. Proč přesně bias balancing funguje lépe než auxiliary loss, nikdo zatím teoreticky neuzavřel - v prosinci 2025 vyšla práce „A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models“ (arXiv:2512.03915), která je prvním vážným pokusem. Optimální poměr sparsity ve velmi velkém měřítku není ustálen. Konvergence MoE, SSM a lineární attention v jeden hybridní recept teprve probíhá. Multimodální MoE - balancing mezi modalitou a doménovou specializací - je téma otevřené.

Mezitím komunita pokračuje. GPT-5, Claude Opus 4.7, Gemini 3 - vlastnosti všech nejnovějších modelů, ať jsou nebo nejsou otevřeně publikované, se pohybují v paradigmatu, které před devíti lety popsal Shazeer v jednom preprintu. Z drahého experimentu se stal nový výchozí stav. Drahé experimenty jsou nyní někde jinde.

Hlavní zdroje (chronologicky):

Jacobs, Jordan, Nowlan, Hinton (1991), „Adaptive Mixtures of Local Experts”, Neural Computation 3(1).
Shazeer et al. (2017), „Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”, arXiv:1701.06538.
Lepikhin et al. (2020), „GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding”, arXiv:2006.16668.
Fedus, Zoph, Shazeer (2021), „Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”, arXiv:2101.03961, JMLR 23(120).
Du et al. (2021), „GLaM: Efficient Scaling of Language Models with Mixture-of-Experts”, arXiv:2112.06905, ICML 2022.
Zoph et al. (2022), „ST-MoE: Designing Stable and Transferable Sparse Expert Models”, arXiv:2202.08906.
Zhou et al. (2022), „Mixture-of-Experts with Expert Choice Routing”, arXiv:2202.09368, NeurIPS 2022.
Puigcerver et al. (2023), „From Sparse to Soft Mixtures of Experts”, arXiv:2308.00951.
Gu, Dao (2023), „Mamba: Linear-Time Sequence Modeling with Selective State Spaces”, arXiv:2312.00752.
Jiang et al. (2024), „Mixtral of Experts”, arXiv:2401.04088.
Dai et al. (2024), „DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models”, arXiv:2401.06066, ACL 2024.
Krajewski, Ludziejewski et al. (2024), „Scaling Laws for Fine-Grained Mixture of Experts”, arXiv:2402.07871, ICML 2024.
Lieber et al. (2024), „Jamba: A Hybrid Transformer-Mamba Language Model”, arXiv:2403.19887.
Raposo et al. (2024), „Mixture-of-Depths: Dynamically allocating compute in transformer-based language models”, arXiv:2404.02258.
Wang et al. (2024), „Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts”, arXiv:2408.15664.
DeepSeek-AI (2024), „DeepSeek-V3 Technical Report”, arXiv:2412.19437.
MiniMax (2025), „MiniMax-01: Scaling Foundation Models with Lightning Attention”, arXiv:2501.08313.
Yuan et al. / DeepSeek (2025), „Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”, arXiv:2502.11089.
Qwen Team (2025), „Qwen3 Technical Report”, arXiv:2505.09388.
Lo et al. (2024/2025), „A Closer Look into Mixture-of-Experts in Large Language Models”, arXiv:2406.18219, Findings NAACL 2025.
Han, Zhong (2025), „A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models”, arXiv:2512.03915.

Transparentnost tvorby:

Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude, Anthropic) byla využita jako nástroj pro rešerši, vyhledávání primárních zdrojů a formulační rozpracování autorovy obsahové skici.

Autor výstupy průběžně redigoval, ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez lidské kontroly. Všechny faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.

Postup je v souladu s požadavky čl. 50 Nařízení EU 2024/1689 (AI Act) na transparentnost AI-generovaného obsahu. #poweredByAI

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Z drahého experimentu standardem: devět let architektury Mixture-of-Experts

Článek

Číslo, které vypadalo jako překlep

Od Shazeera ke Switch Transformeru: zrod routingu

Mixtral, DeepSeekMoE a kanonický vzor 2024

Co se experti vlastně učí

Zákony škálování a teoretická opodstatněnost sparsity

Mixture-of-Depths, Mamba, Jamba a širší řídkost

Kdy MoE nedává smysl: poctivá protistrana

Co z toho plyne pro rok 2026

Postranní panel

Další články autora

Internet, technologie a elektronika AI píše kód, testy i jejich kontrolu. Slepou skvrnu si řetězec sám nevidí

Internet, technologie a elektronika Když kód předběhne porozumění

Finance Za osm hodin odešlo 42 miliard dolarů. Proč se velké firmy nehroutí pomalu, ale naráz

Sdílejte s lidmi své příběhy

Další články autora

Internet, technologie a elektronika AI píše kód, testy i jejich kontrolu. Slepou skvrnu si řetězec sám nevidí

Internet, technologie a elektronika Když kód předběhne porozumění

Finance Za osm hodin odešlo 42 miliard dolarů. Proč se velké firmy nehroutí pomalu, ale naráz

Internet, technologie a elektronika Příliš mnoho dobrého: proč víc motivace a víc optimalizace často zhoršuje výsledek

Věda a historie JFK, Tagueho obrubník, katedrála v Salisbury a spálené poznámky

Doporučované

Postranní panel