Hlavní obsah
Internet, technologie a elektronika

Proč umělá inteligence neumí navrhnout proudový motor

Foto: Gogle Gemini

Vizualizace turbínové lopatky mezi digitálním a reálným světem

AI vytvoří vizuálně dokonalý 3D model turbínové lopatky za deset sekund. Jenže ta lopatka se nevejde do rotoru — a stroj netuší proč. Kde leží hranice mezi generováním tvarů a porozuměním fyzice?

Článek

Mezi generováním pěkných trojrozměrných modelů a skutečným porozuměním fyzickému světu leží propast, kterou zatím nikdo nepřeklenul. Poprvé ale víme, kudy vede most.

Představte si, že požádáte AI o trojrozměrný model turbínové lopatky. Za deset sekund dostanete vizuálně přesvědčivý objekt — hladké plochy, správný tvar, věrohodné textury. Jenže ta lopatka nemá správný profil proudění. Její rozměry neodpovídají žádné toleranční třídě. Nevejde se do rotoru. A hlavně — umělá inteligence netuší, proč by se tam měla vejít.

Tenhle rozpor definuje současný stav umělé inteligence v trojrozměrném světě. Na jedné straně stojí závratný pokrok v generování tvarů — modely jako Hunyuan3D nebo TRELLIS produkují texturované objekty za sekundy. Na druhé straně zůstává propast mezi tím, co AI dokáže vyrobit, a tím, čemu skutečně rozumí. Propast mezi trojúhelníkovou sítí a fungujícím strojem.

Tato analýza mapuje celou šíři pole: od zásadních omezení jazykových modelů přes revoluci v generování trojrozměrných těles až po pokročilé pokusy naučit umělou inteligenci chápat fyziku. Klíčová otázka zní: kdy — pokud vůbec — bude AI schopna samostatně navrhnout funkční mechanický systém?

Ploché myšlení v trojrozměrném světě

Současné velké jazykové modely — GPT-4, Claude, Gemini — zpracovávají svět dvěma ze své podstaty plochými modalitami: sekvenčními textovými tokeny a rastrovými obrazovými výřezy. Přehledový článek pro konferenci IJCAI 2025 (Zha et al.) identifikoval jádro problému: text je ze své podstaty nepřesný a nejednoznačný ohledně velikosti, tvaru a relativního umístění objektů, pokud není robustně propojen s prostorovým porozuměním (IJCAI 2025).

Srovnávací testy tuto propast vyčíslují nemilosrdně. Soubor úloh BLINK (Fu et al., ECCV 2024) přeformuloval 14 klasických úloh počítačového vidění — odhad hloubky, uvažování z více pohledů, prostorové vztahy — jako výběr z odpovědí. Lidé dosáhli průměrně 95,7 % přesnosti. GPT-4V pouhých 51,3 %. Gemini 45,7 %. To je přibližně 13 a necelých 8 procentních bodů nad náhodným tipováním — u úloh, které člověk řeší jedním pohledem (arXiv: 2404.12390).

Studie „Thinking in Space“ (Yang et al., CVPR 2025) přinesla další znepokojivý nález. Na více než 5 000 otázkách z reálných videí z interiérů dosáhl nejlepší model Gemini-1.5 Pro celkovou přesnost kolem 46 %, zatímco lidé 79 %. V dílčím experimentu s kognitivními mapami sice model dosáhl 64 % přesnosti při umísťování sousedících objektů, ale u větších vzdáleností se přesnost prudce propadala. Navíc techniky typu řetězení myšlenek (chain-of-thought), které obvykle pomáhají s logickým uvažováním, prostorový výkon paradoxně nezlepšily — v některých případech ho dokonce mírně zhoršily (arXiv: 2412.14171, projektová stránka).

Studie „Stuck in the Matrix“ (Cohen et al., arXiv 2025) odhalila, jak rychle se prostorové uvažování jazykových modelů hroutí s rostoucí složitostí. Na malé mřížce 3×3 všechny modely fungují spolehlivě. Se zvětšující se mřížkou přesnost prudce klesá — průměrný pokles činí 42,7 %, v nejhorších případech až 84 %. Každý test, který začínal s přesností nad 50 %, zaznamenal pokles nejméně o 48 procentních bodů (arXiv: 2510.20198).

Výzkum MIT (Wu et al., 2024) pak nabídl vysvětlení: jazykové modely excelují ve známých scénářích, ale při minimální změně podmínek — pozměněná aritmetika, šachy s jinými počátečními pozicemi — klesají na úroveň náhodného hádání. Výkon je z velké části důsledkem memorace, nikoliv obecného uvažování (MIT News).

Zvláště znepokojivá je práce „Revisiting 3D LLM Benchmarks“ (Jin et al., ACL Findings 2025). Vizuálně-jazykové modely používající pouze dvourozměrné vykreslení mračen bodů signifikantně překonaly nejlepší specializované trojrozměrné jazykové modely na některých srovnávacích testech. Autoři to nazvali problémem „podvádění dvourozměrnou informací“ — mnohé údajně trojrozměrné úlohy lze vyřešit z povrchové dvourozměrné informace (arXiv: 2502.08503).

Co vlastně znamená „rozumět“ proudovému motoru? Vyžaduje to souběžné uvažování o tisících součástek s mikronovými tolerancemi, o proudění přes stupně kompresoru, o tepelné roztažnosti různých slitin při různých teplotách, o dynamice rotorů a vibračních módech. Jazykový model dokáže zopakovat naučená fakta — „turbodmychadlový motor má ventilátor, kompresor, spalovací komoru a turbínu.“ Ale nedokáže mentálně rotovat součástky, uvažovat o tolerančních řetězcích, chápat vliv tepelné roztažnosti na vůle ani sledovat cesty zatížení strukturou. To je zásadní rozdíl mezi deklarativním věděním — fakta o něčem — a procedurálním prostorovým věděním — porozumění fungování.

Revoluce v generování trojrozměrných těles: rychle, ale mělce

Navzdory těmto zásadním omezením prošla oblast generativních trojrozměrných modelů v letech 2024–2025 dramatickou proměnou. Pro srovnání: Point-E (OpenAI, 2022) generoval hrubá mračna bodů za jednu až dvě minuty, DreamFusion (Google, 2022) optimalizoval neurální vyzařovací pole (NeRF) pro jediný objekt přibližně hodinu a půl. Moderní dopředné modely produkují texturované trojrozměrné polygonální sítě za sekundy.

Hunyuan3D (Tencent) patří k nejpokročilejším platformám s otevřeným kódem. Verze 2.0 z ledna 2025 kombinuje generaci tvaru přes difúzní transformátor s texturní syntézou vytvářející fyzikálně založené materiály — albedo, metaličnost, drsnost, normálové mapy — za 10 až 25 sekund. Verze 2.5 z června 2025 zvýšila věrnost detailů (GitHub, hy-3d.com).

TRELLIS (Microsoft, CVPR 2025, vyznamenání Spotlight) s verzí TRELLIS.2 dosáhl 4 miliard parametrů a představil O-Voxel — řídkou voxelovou strukturu zvládající složité topologie v rozlišení až 1536³ voxelů za přibližně 60 sekund na grafickém procesoru H100 (GitHub, Datameister).

Rodina Large Reconstruction Model (Hong et al., ICLR 2024) s 500 miliony parametrů predikuje trojrozměrný objekt z jediného obrázku za přibližně 5 sekund. Varianta GS-LRM dosahuje 0,23 sekundy ze dvou až čtyř obrázků. InstantMesh (TencentARC, 2024) kombinuje víceúhlový difúzní model s architekturou LRM a diferenciální extrakcí iso-povrchů (LRM projekt, InstantMesh).

Gaussovské rozstřikování (Gaussian Splatting, Kerbl et al., SIGGRAPH 2023) se stalo standardem pro vykreslování v reálném čase. Reprezentace scén miliony anizotropních gaussových primitiv dosahuje vykreslování v reálném čase při 30 až 361 snímcích za sekundu s kvalitou odpovídající nebo překonávající NeRF. Standardizační úsilí skupin Khronos a OGC z roku 2025 přidává gaussovy rozstřiky do ekosystému formátu glTF. Rodina DUSt3R/MASt3R (Naver Labs, CVPR 2024/2025) zásadně posunula hustou trojrozměrnou rekonstrukci bez kalibrace kamery — MASt3R-SLAM funguje při 15 snímcích za sekundu (MASt3R-SLAM).

Vizuální výsledky jsou působivé. Ale pro inženýrství jsou tyto modely zásadně nedostatečné. Generované polygonální sítě jsou „trojúhelníkové polévky“ — bez parametrického CAD modelu s vazbami, rozměry nebo stromem konstrukčních prvků (feature tree). Testování společnosti Xometry ukázalo, že nástroje jako Zoo Design fungovaly pro jednoduché příruby a konzoly, ale selhaly u středně složitých ozubených kol. Podle Meshy je přibližně jedna z deseti generací použitelná pro klienta bez manuálních úprav, přičemž systém má problémy se složitými vícedílnými sestavami (Leo AI). Rozdíl mezi 10,0 mm a 10,05 mm je rozdíl mezi fungující součástkou a šrotem.

Prostorová inteligence: nový výzkumný směr s velkými ambicemi

Pokud současné jazykové modely nerozumí prostoru a generativní modely vytvářejí jen vizuální obálky bez fyzikálního obsahu, existuje cesta vpřed? Několik výzkumných skupin věří, že ano — a nazývají ji prostorová inteligence.

Fei-Fei Li, profesorka Stanfordu a jedna z klíčových postav počítačového vidění, definuje prostorovou inteligenci jako schopnost umělé inteligence „vnímat, modelovat, uvažovat o fyzickém nebo geometrickém prostoru a jednat v něm.“ Ve svém eseji „From Words to Worlds“ (Od slov ke světům) z listopadu 2025 argumentovala, že velké jazykové modely jsou v jistém smyslu řemeslníci se slovy uvěznění ve tmě (wordsmiths in the dark) — výmluvní, ale nezkušení; znalí, ale neukotvení v reálném světě (Substack Fei-Fei Li, Fast Company).

Li spoluzaložila World Labs s Justinem Johnsonem, Christophem Lassnerem a Benem Mildenhallem (spolutvůrce NeRF). Firma získala 230 milionů dolarů v kole vedeném fondy Andreessen Horowitz, NEA a Radical Ventures v září 2024, s účastí NVIDIA a dalších. Počátkem roku 2026 pak dalších přibližně 1 miliardu dolarů od AMD, NVIDIA, Autodesk, Fidelity a dalších, při valuaci kolem 5 miliard dolarů (World Labs blog, TechCrunch).

Jejich produkt Marble, spuštěný v listopadu 2025, je generativní multimodální světový model vytvářející trvalé, průchozí trojrozměrné světy z textu, obrázků, videa nebo hrubých prostorových rozvržení — exportovatelné jako gaussovy rozstřiky, polygonální sítě nebo videa, kompatibilní s Vision Pro a Quest 3 (World Labs blog, TechCrunch). World Labs dále představily rozhraní World API integrované s Isaac Sim a MuJoCo a vykreslovací knihovnu Spark s otevřeným kódem (World Labs: API, Bigger Worlds).

Souběžně pokročilo trojrozměrné porozumění scénám. ConceptGraphs (Gu et al., ICRA 2024) vytvářejí otevřeně slovníkovou, grafově strukturovanou reprezentaci scén fúzí dvourozměrných základních modelů (SAM, CLIP) do trojrozměrného prostoru přes asociaci z více pohledů, s GPT-4 generujícím popisy objektů a meziobjectové vztahy (ConceptGraphs). LERF (Kerr et al., ICCV 2023, UC Berkeley) vkládá jazykové příznaky CLIP do neurálních vyzařovacích polí, čímž umožňuje jazykové dotazy v trojrozměrném prostoru. 3D-LLM (Hong et al., NeurIPS 2023) jako první jazykový model přijímající trojrozměrná mračna bodů jako vstup překonal dvourozměrné vizuálně-jazykové modely na srovnávacím testu ScanQA (arXiv: 2307.12981).

Rozumí umělá inteligence fyzice? Zatím ne — ale učí se klást správné otázky

Zásadní otázka pro konstruování strojů není, zda AI dokáže vytvořit tvar, ale zda chápe, proč se věci pohybují, lámou a deformují.

LLMPhy (Cherian et al., NeurIPS 2024) předvedl perspektivní přístup: kombinace jazykového modelu s fyzikálním výpočetním jádrem produkuje špičkové fyzikální uvažování bez předchozího tréninku na dané úloze. Klíčový poznatek spočívá v tom, že jazykový model samotný nedokáže předvídat dynamiku mnoha těles, ale dokáže generovat hypotézy testovatelné v simulátoru. Jazykový model tedy slouží jako tvůrce hypotéz, fyzikální jádro jako ověřovatel. To naznačuje, že jazykové modely potřebují vnější fyzikální simulaci místo vnitřního fyzikálního porozumění (OpenReview: LLMPhy, arXiv: 2411.08027).

Studie „How Far is Video Generation from World Model“ (Kang et al., ICML 2025, ByteDance) systematicky prokázala, že modely generující video nedokáží zobecnit fyzikální pravidla. Místo toho vykazují napodobování nejbližšího trénovacího příkladu. Závěr autorů je jednoznačný: pouhé zvětšování modelů nestačí k odhalení zásadních fyzikálních zákonů (OpenReview: ICML 2025).

I Genie 3 (Google DeepMind, srpen 2025) — první interaktivní světový model generující trojrozměrné světy v reálném čase na rozlišení 720p při 24 snímcích za sekundu — má omezení v přesnosti fyziky a konzistenci na pouhých několik minut (TechCrunch).

V oblasti porozumění mechanickým sestavám přinesly pokroky specializované systémy. DYNAMO (2025) předvídá pohyb v ozubených mechanických sestavách — čelní, šikmá a kuželová ozubená kola, šnekové převody, hřeben-pastorek i planetové soukolí (arXiv: DYNAMO). MechaFormer (Bolanos et al., AAAI 2025, Autodesk Research) automatizuje návrh kinematických mechanismů — generuje topologii i souřadnice kloubů z vázaných křivek pro čtyř-, šesti- a osmičlenné mechanismy (arXiv: MechaFormer). Articulate-Anything (Le et al., ICLR 2025) dosahuje 75 % přesnosti v automatickém modelování kloubových trojrozměrných objektů, oproti 8,7–12,2 % dřívějších metod (arXiv).

To jsou reálné pokroky. Ale stále jde o izolované ukázky na relativně jednoduchých mechanismech — ne o složité strojní celky se stovkami vzájemně působících komponent.

AI v inženýrském návrhu: pomocník, ne konstruktér

Praxe komerčních CAD nástrojů s umělou inteligencí ukazuje realistický obraz současných možností — i omezení.

V topologické optimalizaci funguje AI jako urychlovač: neuronové sítě nahrazující metodu konečných prvků (MKP) v optimalizační smyčce (Deng et al., Nature Communications, 2022) snižují podíl MKP výpočtu na přibližně 40 % celkového času díky samostatnému průběžnému učení (Nature Communications). Nejnovější přístup z roku 2025 založený na posilovacím učení integruje algoritmus PPO s MKP pro generativní lehké struktury s výrobními omezeními (PubMed Central). Recenze v Journal of Computational Design and Engineering mapuje tři cesty: zástupné modely, neuronové náhražky MKP a implicitní neuronové reprezentace (Oxford Academic).

Komerční nástroje jsou počátkem roku 2026 ve fázi „AI pomocníků“. Autodesk Assistant ve Fusionu automatizuje vazby skic a obráběcí dráhy. Siemens NX Copilot nabízí kontextovou asistenci při návrhu. PTC Creo má generativní topologickou optimalizaci běžící uvnitř parametrického stromu historie. Onshape AI Advisor asistuje při modelování (Autodesk blog, Siemens NX blog, DEVELOP3D). SOLIDWORKS na konferenci 3DEXPERIENCE World 2026 předvedl převod dvourozměrné skici na plně parametrický trojrozměrný model — s plánovaným uvedením v polovině 2026 (Machine Design).

Nejambicióznějším směrem je Neural CAD — generování parametrických CAD modelů z textu. DeepCAD (Wu et al., ICCV 2021) položil základy: autoenkodér typu Transformer zacházející s CAD příkazovými sekvencemi obdobně jako s přirozeným jazykem, trénovaný na 178 238 CAD modelech z Onshape (TheCVF). Text2CAD (Khan et al., NeurIPS 2024 Spotlight) překonává DeepCAD o 18,6 % na středně pokročilých zadáních (Text2CAD). Zoo/KittyCAD nabízí produkčně dostupné rozhraní text-to-CAD generující soubory STEP, ale omezené na jednodušší geometrie (3D Printing Industry). MIT v listopadu 2025 představil AI agenta, který se učí používat CAD k vytváření trojrozměrných objektů ze skic (MIT News).

V praxi je nasazení umělé inteligence dál v optimalizaci a inspekci než v samostatném návrhu. GE Aerospace používá AI inspekci turbínových lopatek ve více než 12 opravárenských zařízeních. Boeing má přes 70 aplikací generativní AI v produkci (Boeing Innovation). Airbus využívá generativní návrh pro komponenty (Aero Mag). NVIDIA PhysicsNeMo dosahuje až 500násobného zrychlení kombinací GPU-akcelerovaných řešičů s AI zástupnými modely (NVIDIA Developer). Siemens a NVIDIA budují partnerství pro první výrobní závody řízené umělou inteligencí počínaje rokem 2026 (NVIDIA Newsroom). Siemens na veletrhu CES 2026 představil nástroj Digital Twin Composer (Siemens). ANSYS SimAI zkrátil aerodynamickou analýzu automobilu z 50 hodin na méně než hodinu s přesností nad 95 % (AI Buzz).

Trh generativního návrhu by měl podle Mordor Intelligence dosáhnout 8,58 miliardy dolarů do roku 2030 s průměrným ročním růstem 14,82 % (Mordor Intelligence). Ale klíčový detail zůstává: AI zatím nenavrhuje celé stroje — optimalizuje jednotlivé součástky v rámci parametrů, které definuje lidský inženýr.

Roboti se učí rozumět trojrozměrnému světu dotykem

Odlišnou cestou k prostorovému porozumění jdou roboti. Fyzická interakce poskytuje kvalitativně jiné poznání než pasivní pozorování obrazů.

Článek WoW (září 2025) trénoval 14miliardový generativní světový model na 2 milionech robotických interakčních trajektorií. Ukázal, že modely trénované na interakcích vykazují emergentní fyzikální porozumění, které pasivním video modelům chybí (arXiv). EmbodiedMAE (květen 2025) vytvořil datovou sadu DROID-3D se 76 000 trajektoriemi představujícími 350 hodin interakčních dat a překonal všechny dosavadní vizuální základní modely (arXiv).

DreamerV3 (Hafner et al.) publikovaný v Nature v dubnu 2025 dosáhl milníku — jediný algoritmus s fixními hyperparametry zvládající více než 150 různorodých úloh přes spojité řízení, Atari a Minecraft (Nature). V-JEPA 2 (Meta, červen 2025) je 1,2miliardový světový model trénovaný na více než 1 milionu hodin videa a 1 milionu obrázků metodou samo-řízeného učení, s doladěním na pouhých přibližně 62 hodinách robotických dat. Dosahuje 65–80 % úspěšnosti v úlohách uchopení a přemístění v neviděných prostředích s přímým přenosem bez předchozího tréninku (The Robot Report, TechCrunch).

Základní modely pro robotiku prošly bouřlivým vývojem. π0 (Physical Intelligence, říjen 2024) předvedl vícekrokové úlohy jako skládání prádla. OpenVLA (Stanford, červen 2024) překonal RT-2-X o 16,5 % absolutně. GR00T N1.5 (NVIDIA, červen 2025) je model s otevřeným kódem o 3 miliardách parametrů pro humanoidní roboty (Wikipedia: VLA, Emergent Mind). Taktilní senzory dosahují rozlišení 5× vyšší než lidské konečky prstů, Figure 03 detekuje síly malé jako 3 gramy (Analog Devices, Figure AI).

V přenosu ze simulace do reálného světa: DexGraspNet 2.0 prokázal 90,7 % úspěšnost v reálném obratném uchopení přes přímý přenos. NVIDIA SRSA dosáhla 90 % úspěšnosti v reálných montážních úlohách. Google DeepMind DemoStart dosáhl 97 % úspěšnosti v reálné reorientaci kostky (Google DeepMind blog, Edge AI).

Přesto zůstává montáž složitých mechanických systémů hraniční výzvou. Roboti zvládají jednoduché montáže — čep v otvoru, matice a šroub. Vícekrokové mechanické sestavy vyžadující porozumění kinematickým řetězcům, tolerancím a sekvenčním závislostem přesahují současné schopnosti.

Co chybí: od tvaru k funkci

Zásadní propast mezi současnými schopnostmi a skutečným trojrozměrným porozuměním má několik rozměrů.

Kompozicionalita — sestavování součástek do fungujících systémů — vyžaduje porozumění nejen individuálním tvarům, ale jejich funkčním vztahům a vazbovým podmínkám. PhysPart (ICRA 2025) zavedl diferenciální fyzikální simulaci pro zajištění hladkého pohybu generovaných součástek. Klíčový nález: fyzikální omezení musí být výslovně modelována — nevznikají z rozpoznávání vzorů (ICRA 2025). PhyCAGE (2024) dospěl ke stejnému závěru u problémů vzájemného průniku objektů (arXiv).

Kauzální uvažování zůstává nepřeklenutou propastí. Autoregresivní predikční mechanismus transformeru není ze své podstaty sladěn s logickou nebo fyzikální kauzalitou. Rámec CWMI (2025) výslovně adresuje tento deficit zavedením modulu příčinné fyziky (Causal Physics Module), ale model stále selhává u látek, kapalin a deformovatelných objektů (arXiv).

Datové sady mechanických sestav jsou vzácné. PartNet-Mobility nabízí 2 700 kloubových trojrozměrných objektů, ale zaměřuje se převážně na domácí předměty — ne na převodovky a turbíny. VideoCAD (MIT, NeurIPS 2025) s více než 41 000 příklady CAD interakcí představuje krok správným směrem, ale pokrývá zlomek inženýrského prostoru.

Nejperspektivnější konvergence probíhá na průsečíku tří směrů: World Labs a prostorová inteligence vytvářející trvalé trojrozměrné světy; NVIDIA Newton — fyzikální výpočetní jádro s otevřeným kódem a akcelerací na grafických procesorech, vyvinuté společně NVIDIA, Google DeepMind a Disney Research, oznámené na konferenci GTC v březnu 2025 a přispěné do Linux Foundation v září 2025 (NVIDIA Developer, Linux Foundation); a základní modely pro robotiku přinášející ztělesněné porozumění.

Protiargumenty: je ta propast skutečně tak hluboká?

Bylo by neférové nevzít v úvahu argumenty těch, kdo vidí cestu kratší.

Argument emergence. Zastánci škálování namítají, že prostorové porozumění může spontánně vzniknout v dostatečně velkých modelech trénovaných na dostatečně bohatých datech. GPT-4 skutečně řeší některé prostorové úlohy lépe než GPT-3.5. Ale studie ByteDance pro ICML 2025 přímo testovala tuto hypotézu a dospěla k závěru, že zvětšování modelů samo o sobě nestačí k odhalení fyzikálních zákonů — modely se učí povrchové korelace, ne příčinnou strukturu.

Argument dostatečnosti nástrojů. Možná umělá inteligence nepotřebuje „rozumět“ fyzice — stačí, když umí správně použít fyzikální simulátor. Přístup LLMPhy to částečně potvrzuje. Ale pro návrh nového mechanismu nestačí testovat hypotézy — je třeba je nejdřív generovat, a to vyžaduje alespoň intuitivní porozumění tomu, co by mohlo fungovat.

Argument spolupráce člověka s AI. Nejrealističtější protipozice: umělá inteligence nemusí navrhovat stroje samostatně — stačí, když dramaticky urychlí práci lidského inženýra. Tento argument je silný a dnešní praxe (Boeing, GE, Airbus) ho potvrzuje. Otázka, kterou si klademe, však míří dál — k autonomnímu porozumění.

Výhled: kdy AI navrhne funkční stroj?

Trajektorie vývoje naznačuje čtyři horizonty s klesající mírou jistoty.

2026–2027: Spolehlivý převod textu na parametrický CAD pro jednoduché součástky. AI pomocníci jako standard ve všech hlavních CAD platformách. Zástupné modely jako běžná součást simulačních pracovních postupů. Roboti zvládající strukturované montáže se známými díly.

2028–2032: Základní modely kombinované se světovými modely a taktilním vnímáním umožní adaptaci na nové montážní úlohy s několika málo ukázkami. AI-asistovaný návrh kompletních podsestav s automatickým ověřením výrobitelnosti.

2032+: Skutečná univerzální mechanická montáž — robot prozkoumá neznámý mechanismus, odvodí jeho funkci a provede precizní montáž. To pravděpodobně vyžaduje průlomy v kauzálním fyzikálním uvažování a integrovaných trojrozměrných světových modelech s predikcí kontaktů a sil.

Zásadní výzva zůstává přechod od korelačního rozpoznávání vzorů ke kauzálnímu fyzikálnímu porozumění. Řešení bude pravděpodobně vyžadovat kombinaci multimodálních jazykových modelů pro vysokoúrovňové sémantické uvažování se světovými modely pro fyzikálně uvědomělou simulaci — protože jazykové modely samotné přehlížejí fyzikální omezení a světové modely samotné postrádají vysokoúrovňovou sémantiku.

Vraťme se k té turbínové lopatce ze začátku. AI dnes dokáže vytvořit její vizuální kopii za 10 sekund, optimalizovat její tvar pro aerodynamiku za minuty a zkrátit simulaci proudění z 50 hodin na jednu. Ale navrhnout od nuly funkční stupeň turbíny, kde lopatka spolupracuje s desítkami dalších v rotačním soukolí při teplotách přes 1 000 °C — to umělá inteligence zatím nesvede. Ne proto, že jí chybí výpočetní výkon. Ale proto, že jí chybí to, co inženýři budují celou kariéru: mentální model toho, jak věci ve třech rozměrech skutečně fungují.

Poprvé ale existuje realistická mapa cesty, jak se tam dostat. Kombinace prostorové inteligence, diferenciální fyziky a ztělesněné zkušenosti — robotů, kteří se učí rozumět světu tím, že se ho dotýkají — nabízí cestu od plochého myšlení k trojrozměrnému porozumění. Cesta je delší než vzdálenost, kterou jsme urazili. Ale směr je poprvé jasný.

Transparentnost tvorby

Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude Opus 4.6, Anthropic) byla využita jako nástroj pro rešerši, ověřování faktů a rozepsání autorovy předlohy.

Autor ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez vědomé autorské kontroly. Faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.

Postup odpovídá principům transparentnosti Nařízení EU 2024/1689 (AI Act). #poweredByAI

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Související témata:

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít publikovat svůj obsah. To nejlepší se může zobrazit i na hlavní stránce Seznam.cz