Hlavní obsah

Moorův zákon v éře umělé inteligence

Foto: Claude Opus 4.6

Graf vývoje schopností AI

Moorův zákon v éře umělé inteligence

Článek

Od tranzistorů k neuronům

V roce 1965 Gordon Moore publikoval postřeh, který se stal jedním z nejcitovanějších zákonů technologické historie: počet tranzistorů na čipu se zdvojnásobuje přibližně každé dva roky. Toto pozorování se drželo překvapivě přesně po více než půl století a stalo se motorem celé digitální revoluce — od mainframů přes smartphony až po dnešní GPU clustery trénující velké jazykové modely.

Ale Moorův zákon má jeden podstatný rys, který se v populárním podání často přehlíží: je to zákon o vstupech, ne o výstupech. Říká nám, kolik tranzistorů dokážeme naskládat na čip, ne jak užitečný ten čip bude. Po desetiletí tento rozdíl nehrál roli — víc tranzistorů znamenalo lineárně víc výkonu. Dnes, v éře umělé inteligence, se tento rozdíl stal klíčovým.

Super-Moorovská dynamika

Compute investovaný do trénování frontier AI modelů roste tempem, které Moorův zákon nechává daleko za sebou. Podle dat Epoch AI se trénovací compute zdvojnásobuje přibližně každých 6 měsíců — tedy čtyřikrát rychleji než Moorův zákon. Mezi lety 2010 a 2024 vzrostl trénovací compute přibližně 10 miliardkrát. Samotný hardware by za stejnou dobu přinesl pouze sedminásobek.

Odkud ten rozdíl? Ze tří souběžných exponenciál, které se navzájem násobí. Hardware přináší zhruba 1,35× ročně (Moorův zákon plus lepší architektury čipů). Algoritmická efektivita přidává odhadem 2,8× — podle studie Epoch AI z roku 2024 (Ho et al.) se compute potřebný pro daný výkon snižuje na polovinu každých osm měsíců, s 95% intervalem spolehlivosti 5–14 měsíců; to odpovídá ročnímu faktoru v rozmezí 1,7–5,3×, přičemž 2,8× je bodový odhad. A nakonec investice: rozpočty na trénovací clustery rostou 2–3× ročně, od milionů po miliardy dolarů.

Součin těchto tří faktorů dává odhadem 8–15× ročně (přesná hodnota závisí na metodologii). Tento součin se v ML komunitě označuje jako „efektivní compute“. Toby Ord, filozof z Oxfordu, v eseji „The Scaling Paradox“ (leden 2025) odhaduje jeho tempo na přibližně 12× ročně a zdvojnásobení na pouhých 3–5 měsíců. Jde ovšem o horní odhad — jiné analýzy (EA Forum, Epoch AI) docházejí k faktoru přibližně 6–10× ročně.

Klíčové číslo: Efektivní compute (hardware × algoritmy × investice) roste odhadem 8–15× ročně. Za pět let to je faktor desítky tisíc až stovky tisíc. Za deset let miliardy. Moorův zákon by za stejnou dobu přinesl faktor 32×, resp. 1 024×.

Paradox: exponenciální vstupy, logaritmické výstupy

Pokud by se vstupy přímo převáděly na schopnosti, AI by se měla zlepšovat tempem, které překonává jakékoli lidské měřítko. Realita je podstatně komplikovanější.

V roce 2020 tým z OpenAI vedený Jaredem Kaplanem publikoval tzv. škálovací zákony (scaling laws), které ukazují, že výkon modelu měřený jako loss (míra chybovosti při predikci textu) klesá s compute podle mocninného zákona s exponentem přibližně 0,050. Co to znamená v praxi? Zdvojnásobíte výpočetní výkon — a model se zlepší o pouhá tři a půl procenta. Investujete desetkrát víc — a chybovost klesne jen asi o dvanáct procent.

Důležitá kvalifikace: Kaplanovy exponenty byly v roce 2022 korigovány studií „Chinchilla“ (Hoffmann et al.), která ukázala, že optimální alokace compute by měla rovnoměrněji vyvažovat velikost modelu a objem dat. Chinchilla korekce mění optimální poměr parametrů a tokenů, ale klíčový vhled — hluboce sublineární škálování lossu s compute — zůstává v platnosti i po korekci.

Je to, jako byste zdvojnásobili velikost továrny a vyrobili jen o pár kusů víc. Pro opravdu dramatický skok — řekněme, aby model dělal polovinu chyb — byste potřebovali přibližně milionkrát víc výpočetního výkonu, než s čím jste začínali. Právě proto stojí trénování každé nové generace modelů řádově víc než té předchozí: GPT-4 spotřeboval zhruba 70× víc compute než GPT-3, ale kvalitativní skok byl, jakkoli impozantní, jen dalším krokem na logaritmické křivce.

Toby Ord to shrnul v eseji „The Scaling Paradox“ (leden 2025, rozšířeném do série na EA Forum začátkem 2026): vstupy rostou superexponenciálně, ale konverze na schopnosti je hluboce subexponenciální. Výsledkem je, že monumentální investice (stovky miliard dolarů) přinášejí přírůstky, které jsou inkrementální — ačkoli kumulativně transformativní.

Co z toho plyne pro rychlost pokroku?

Kombinací exponenciálního růstu efektivního compute (8–15×/rok) a logaritmické konverze na schopnosti (exponent 0,05) dostáváme odhad, že loss klesá s poločasem přibližně 4–7 let. To je technicky korektní, ale prakticky neinformativní — protože loss není totéž co „inteligence.“

Jak měřit inteligenci stroje

Jádro problému spočívá v tom, že žádná jednotná metrika „AI inteligence“ neexistuje. Místo toho máme mozaiku benchmarků — standardizovaných testů, z nichž každý měří jinou schopnost. Některé testují encyklopedické znalosti, jiné matematiku, programování nebo abstraktní uvažování.

Abychom mohli křivky smysluplně porovnat, normalizujeme je ke společnému měřítku: výkonu lidského experta v dané doméně. Na následujícím grafu představuje 100 % výkon člověka — doménového specialisty u každého benchmarku. Hodnoty nad 100 % znamenají, že AI člověka překonala.

(Viz graf výše.)

Co z grafu vyčteme

Sigmoidální saturace — strop, na který narážíme

Většina starších benchmarků — MMLU (znalosti), GSM8K (základní matematika), HumanEval (jednoduché funkce v Pythonu) — prošla typickou sigmoidální dráhou. Dlouho se nic nedělo, pak přišel prudký nárůst (obvykle s GPT-4 v březnu 2023) a pak rychlá saturace těsně nad lidskou úrovní. Dnes tyto benchmarky ztratily rozlišovací schopnost: všechny frontier modely skórují nad 90 % a rozdíly mezi nimi jsou statisticky nevýznamné.

Diskontinuita inference-time compute

Nejdramatičtější příběh vypráví křivka MATH (soutěžní matematika). Pět let strávila pod hranicí 100 % lidského PhD studenta, pak přišel model o1 v září 2024 a skóre vyskočilo na 237 % — za jediný kvartál. Příčinou nebyl větší model, ale nové paradigma: inference-time compute, kdy model „přemýšlí déle“ nad těžšími problémy. o3 toto ještě posunul na 242 %.

Stejný vzorec vidíme u ARC-AGI: z 6 % na 103 % lidské úrovně za šest měsíců, opět díky o3. A u Codeforces: o3 dosáhl ratingu 2724, což odpovídá International Grandmasterovi — přibližně top 100 soutěžních programátorů na světě.

Inference-time compute jako nezávislý scaling vektor

Inference-time compute si zaslouží hlubší pozornost, protože představuje fundamentálně odlišné paradigma od trénovacího scalingu. Zatímco tréninkový scaling zvyšuje kvalitu modelu jednorázovou investicí, inference scaling umožňuje „přemýšlet déle“ nad konkrétním problémem — a platit za to za každý dotaz zvlášť.

Toto má zásadní důsledky. Za prvé, inference scaling má vlastní škálovací zákony, které jsou rovněž logaritmické: Toby Ord v eseji „Inference Scaling and the Log-x Chart“ (2025) ukazuje, že standardní grafy inference scalingu (např. z OpenAI reportu k o1) jsou prezentovány se zavádějící logaritmickou osou X, která vizuálně narovnává křivku, která je ve skutečnosti hluboce sublineární. Za druhé, inference scaling nenahrazuje, ale doplňuje trénovací scaling — jde o čtvrtý multiplikativní faktor, který ale funguje s odlišnou ekonomikou: náklady jsou per-query, ne jednorázové.

Za třetí — a to je pro tabulku metrik níže podstatné — inference-time compute může selektivně dramaticky zlepšit výkon na úlohách s verifikovatelnou odpovědí (matematika, programování, formální logika), zatímco na úlohách vyžadujících kreativitu, empatii nebo common-sense reasoning je přínos výrazně menší. Většina „diskontinuit“ na grafu výše (MATH, ARC-AGI, Codeforces) spadá do první kategorie.

Pohyblivý cíl

Jakmile AI saturuje benchmark, komunita vytvoří těžší verzi. HumanEval → SWE-bench → SWE-bench Verified → SWE-bench Pro. Na poslední verzi (SWE-bench Pro, Scale AI) — průmyslový kód, multi-jazykové repozitáře, průměrně 107 řádků opravy přes 4 soubory — dosáhly prvotní výsledky se standardním scaffoldem (SWE-Agent) pouhých 23 % pro nejlepší modely (GPT-5 a Claude Opus 4.1). Novější agentní architektury ale ukazují dramaticky odlišná čísla: Auggie CLI s Claude Opus 4.5 dosáhl 51,8 %, GPT-5.3-Codex 56,8 %. Tento rozptyl ilustruje klíčovou nuanci: u praktických programovacích úloh závisí výkon stejnou měrou na agentním scaffoldu jako na samotném modelu. Stejný model může v závislosti na agentní architektuře dosáhnout 23 % i 52 %.

GPQA Diamond (PhD-level přírodní vědy) je posledním tradičním benchmarkem, který ještě není triviální, ale i zde frontier modely dosahují výsledků výrazně přesahujících lidské experty.

Kontaminace a problém interpretace benchmarků

K vysokým skóre na starších benchmarcích je třeba přistupovat obezřetně. Existují rostoucí důkazy, že frontier modely mohly vidět evaluační data během tréninku — IBM výzkumníci v únoru 2026 konstatovali, že SWE-bench Verified leaderboard je do značné míry saturovaný a kontaminovaný. To je jeden z důvodů, proč vznikl SWE-bench Pro s proprietárními repozitáři: na privátním subsetu (kód, který modely nikdy neviděly) klesá nejlepší skóre z 23 % na pouhých 15–18 %. Tento propastný rozdíl naznačuje, že část „pokroku“ na starších benchmarcích může být artefaktem data leakage, nikoli skutečného zlepšení schopností.

Vzorec „pohyblivého cíle”: Každá generace benchmarku je řádově obtížnější. AI potřebuje 1–2 roky na dosažení slušného skóre — a pak komunita vytvoří novou, ještě těžší verzi. To je konzistentní s logaritmickým modelem: exponenciální compute → lineární zisk na fixním testu, ale prakticky neomezená zásoba těžších testů. Ale pozor: část zdánlivě lineárního zisku na fixních testech může být kontaminací, nikoli generalizací.

Pokus o extrapolaci: jak rychle se AI zdvojnásobí?

Vrátíme-li se k původní otázce — existuje pro AI ekvivalent Moorova zákona? — odpověď závisí na volbě metriky. Různé metriky dávají dramaticky odlišné konstanty zdvojnásobení:

MetrikaZdvojnásobeníCharakterTranzistory (Moore)~24 měsícůHardwareAI trénovací compute~6 měsícůVstup (investice)Efektivní compute~3–5 měsícůVstup (HW + algo + invest.)Algoritmická efektivita~8 měsícůSoftwareTask horizon (METR)~6,5 měsíce (TH1.1)Praktická užitečnostSWE-bench Verified~4,5 měsíceReálné SW inženýrstvíCena za ekv. výkon~3,6 měsíce (pokles)Ekonomická hodnotaLoss gap (L − L∞)~67 měsícůTeoretický strop

Poznámka k tabulce: Loss gap (L − L∞) měří vzdálenost aktuální chybovosti modelu od ireducibilního minima — entropie přirozeného jazyka, pod kterou žádný model nemůže klesnout. Právě tato metrika nejpřímočařeji zachycuje „kolik prostoru pro zlepšení ještě zbývá“ a její pomalé tempo (67 měsíců) ilustruje, jak blízko se frontier modely nacházejí teoretickému stropu v predikci textu. U metrik jako SWE-bench Verified a Task horizon závisí přesné zdvojnásobení na volbě časového okna — uvedená čísla odpovídají periodě 2023–2025.

Rozpětí je obrovské: od 3–5 měsíců (efektivní compute — čistý vstup) po 67 měsíců (loss gap — teoretický strop). Který z těchto údajů je nejblíže „AI Moorovu zákonu”?

Kandidát č. 1: METR Task Horizon

METR (Model Evaluation & Threat Research) měří délku autonomních úloh, které AI agent zvládne s 50% úspěšností. Na rozdíl od benchmarků tato metrika není shora ohraničená a měří praktickou užitečnost. Za celé sledované období (2019–2025) reportuje původní metodika (TH1) zdvojnásobení přibližně každých 212 dní (~7 měsíců; Kwa et al., 2025). Aktualizovaná verze TH1.1 (leden 2026, rozšířená sada 228 úloh) ukazuje celkový trend 196 dní (~6,5 měsíce). Od roku 2023 je trend výrazně rychlejší: 131 dní dle TH1.1, a od roku 2024 dokonce jen 89 dní — ovšem autoři upozorňují na menší robustnost krátkodobých odhadů. Dashboard z února 2026 již zahrnuje GPT-5.1 Codex Max (time horizon ~2,5 hodiny) a Gemini 3 Pro. Implikace: pokud trend vydrží, AI agenti zvládnou jednoměsíční projekty kolem roku 2027–2028.

Je ale třeba zmínit narůstající kritiku samotné metriky. MIT Technology Review (únor 2026) publikoval analýzu „This is the most misunderstood graph in AI“, která upozorňuje, že délka úlohy pro člověka nemusí být dobrý proxy pro obtížnost pro AI — a že METR testuje primárně softwarové úlohy, takže extrapolace na „obecnou AI schopnost“ je problematická. Deborah Raji z UC Berkeley namítá, že „není nutně dáno, že něco, co trvá déle, je těžší úloha.“

Kandidát č. 2: SWE-bench (reálné programování)

SWE-bench Verified zaznamenal růst z 3,8 % na 80,9 % (Claude Opus 4.5, únor 2026) za necelé dva roky — zdvojnásobení zhruba každých 4,5 měsíce. Ale pozor: toto číslo vyžaduje několik kvalifikací. Saturace se blíží (nad 70 % přírůstky dramaticky zpomalují). Starší datové body pocházejí z původní verze benchmarku (2 294 instancí), zatímco Verified má pouze 500 instancí — přesný odhad tempa závisí na volbě výchozího bodu. A jak ukázal SWE-bench Pro, výkon na reálných multi-jazykových projektech je řádově nižší. Vals.ai navíc v únoru 2026 reportuje, že i výsledky na Verified závisejí výrazně na agentním nastavení (scaffold, token limit, počet kroků), ne pouze na modelu.

Kandidát č. 3: ekonomická hodnota

Cena za ekvivalentní výkon klesá přibližně 10× ročně. GPT-3 Davinci API stálo v roce 2022 přibližně 20 dolarů za milion tokenů; ekvivalentní kvalitu dnes poskytují modely za méně než 10 centů — pokles o více než dva řády za necelé tři a půl roku. Zdvojnásobení ekonomické hodnoty: přibližně 3,6 měsíce. Toto číslo je však ovlivněno tím, že zahrnuje jak pokles cen hardware, tak algoritmické zlepšení, tak cenovou soutěž mezi poskytovateli.

Navrhovaný „AI Moorův zákon”: Praktická užitečnost AI (měřená task horizonem nebo SWE-benchem) se zdvojnásobuje přibližně každých 5–7 měsíců (s nejistotou ± 2 měsíce, v závislosti na metrice a časovém období). To je přibližně 3–5× rychleji než Moorův zákon — ale na rozdíl od Moorova zákona tento trend trvá teprve několik let a jeho udržitelnost je nejistá.

Proč to nebude trvat věčně

Každá exponenciála v historii technologií nakonec narazila na fyzikální, ekonomický nebo jiný limit. Pro AI scaling existuje několik konkrétních hrozeb.

Data wall. Epoch AI odhaduje celkový objem veřejně dostupného lidského textu na přibližně 300 bilionů tokenů. Při současném tempu over-trainingu (200+ tokenů na parametr) dojdou kvalitní trénovací data kolem roku 2027. Ilya Sutskever v keynote na NeurIPS 2024 konstatoval: „Pre-training as we know it will unquestionably end“ — s tím, že jsme dosáhli „peak data“ a budoucnost bude v jiných přístupech.

Energetický strop. Projekt Stargate (plánovaných 500 miliard dolarů, stovky tisíc GPU) spotřebuje řádově gigawatty. Další škálování vyžaduje nové elektrárny — a ty se nestaví za měsíce.

Diminishing returns. Samotné škálovací zákony predikují, že každé další zdvojnásobení compute přinese stále menší přírůstek. Meta odložila Llama 4 Behemoth, protože se podle interních hodnocení nezlepšoval dostatečně oproti předchozí generaci, aby ospravedlnil veřejné vydání.

Neefektivita reinforcement learningu. Přechod od pre-trainingu k RL post-trainingu (který stojí za úspěchy modelů řady o1/o3) přináší vlastní problém škálování. RL je řádově méně datově efektivní než pre-training — odhady se pohybují v rozmezí 1 000–1 000 000× (Ord, 2025–2026). Navíc RL generalizuje hůře: model trénovaný na soutěžní matematice se dramaticky zlepší v soutěžní matematice, ale přínos pro „obecnou inteligenci“ je výrazně menší než u srovnatelného pre-trainingu. Jinými slovy: čím více se průmysl přesouvá k RL a inference-time compute, tím více se mohou škálovací vlastnosti systému jako celku zhoršovat.

Bottleneck switch. Dominantní omezení se mění v čase: 2020 — compute; 2024 — data; 2026+ — energie, regulace, alignment. Každý přechod může způsobit zpomalení nebo změnu charakteru pokroku.

Závěr: Moorův zákon jako metafora

Moorův zákon v kontextu AI funguje spíše jako metafora než přesná analogie. Kde Moore popsal jednoduchou exponenciálu jedné proměnné (tranzistory na čipu), AI pokrok je součinem tří souběžných exponenciál — hardware, algoritmů a investic — jejichž multiplikativní interakce generuje zdánlivě zázračné tempo. Ale konverze na skutečné schopnosti naráží na mocninný zákon s exponentem blížícím se nule.

Výsledkem je paradox: efektivní compute roste 8–15× ročně, ale schopnosti se zlepšují logaritmicky. Praktická užitečnost — měřená délkou úloh, které AI zvládne, nebo počtem reálných bugů, které dokáže opravit — se zdvojnásobuje přibližně každých 5–7 měsíců. To je třikrát až pětkrát rychleji než Moorův zákon, ale udržitelné pravděpodobně jen dalších několik let.

Nejdůležitější otázka pro nadcházející roky není „kdy přijde AGI,“ ale zda současná paradigmata (scaling + reinforcement learning + inference-time compute) obsahují dostatečný prostor pro kvalitativní skok — nebo zda bude potřeba fundamentálně nová architektura. Optimisté a skeptici se neshodují právě v tomto bodě. A empirická data zatím neumožňují definitivní rozhodnutí. Stojí za povšimnutí, že každé nové paradigma (pre-training → RL post-training → inference-time compute) přineslo reálné zisky, ale s horšími škálovacími vlastnostmi než to předchozí — což je konzistentní jak s optimistickým pohledem („stále se najde nový zdroj zlepšení”), tak s pesimistickým („každý nový zdroj je méně efektivní”).

Co víme jistě: křivky na grafu výše budou za rok vypadat jinak. Některé benchmarky saturují, nové vzniknou. Compute poroste, ale výnosy se budou zmenšovat. A někde mezi exponenciálními investicemi a logaritmickými výnosy se bude psát příběh, který definuje následující dekádu.

Zdroje: Kaplan et al. „Scaling Laws for Neural Language Models“ (arXiv:2001.08361, 2020); Hoffmann et al. „Training Compute-Optimal Large Language Models“ (arXiv:2203.15556, 2022); Ho et al. „Algorithmic Progress in Language Models“ (Epoch AI, 2024; epoch.ai/blog/algorithmic-progress-in-language-models); Stanford HAI „AI Index Report 2025”; Toby Ord „The Scaling Paradox“ (blogpost, 13. ledna 2025; tobyord.com/writing/the-scaling-paradox; rozšířeno do série na EA Forum, únor 2026); Toby Ord „Inference Scaling and the Log-x Chart“ (2025); OpenAI „Competitive Programming with Large Reasoning Models“ (2025); Scale AI „SWE-bench Pro“ (2025–2026; scale.com/leaderboard/swe_bench_pro_public); Kwa et al. „Measuring AI Ability to Complete Long Tasks“ (METR, arXiv:2503.14499, 2025); METR „Time Horizon 1.1“ (29. ledna 2026; metr.org/blog/2026-1-29-time-horizon-1-1/); METR „Task-Completion Time Horizons of Frontier AI Models“ (metr.org/time-horizons/); Sutskever, keynote NeurIPS 2024 (prosinec 2024); Nikhil Suresh / MIT Technology Review „This is the most misunderstood graph in AI“ (5. února 2026). Data benchmarků: swebench.com, vals.ai, Epoch AI, oficiální reporty OpenAI, Anthropic, Google DeepMind.

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít publikovat svůj obsah. To nejlepší se může zobrazit i na hlavní stránce Seznam.cz