Proč vám Google nemůže najít všechno — a proč za to nemůže Google

Článek

Co mají společného matematika z roku 1931 a vyhledávač na internetu

Představte si, že hledáte na internetu recept na svíčkovou od babičky. Víte, že existuje — někdo ho před lety zveřejnil na malém blogu. Zadáte dotaz. Google vrátí tisíc výsledků, ale ten správný mezi nimi není. Zkusíte jiná slova. Přeformulujete. Nic. Recept přitom na webu je. Prohlížeč by ho zobrazil, kdybychom znali adresu. Vyhledávač ho ale nenašel.

Intuitivně to připisujeme nedokonalosti technologie. Lepší algoritmus, víc dat, chytřejší systém — a problém zmizí. Jenže nezmizí. Že každý soubor pravidel má zabudované hranice, věděla matematika dávno před vznikem internetu.

Gödel a limity každého systému pravidel

V roce 1931 publikoval logik Kurt Gödel — narozený v Brně, působící ve Vídni — důkaz, který otřásl základy matematiky. Jeho věty o neúplnosti říkají v jádru jednu věc: žádný dostatečně silný systém pravidel nemůže být současně úplný a bezrozporný.

Co to znamená konkrétně? Pokud máte systém pravidel — axiomy, ze kterých odvozujete závěry — a tento systém je dostatečně bohatý na to, aby v něm šla vyjádřit základní aritmetika, pak v něm vždy existují pravdivá tvrzení, která z těchto pravidel nelze odvodit. Úplnost a bezrozpornost jsou dvě vlastnosti, které chceme mít současně — ale Gödel ukázal, že to nejde. Buď systém některé pravdy neodhalí, nebo odvozuje i nepravdy.

Klíčové slovo je systém pravidel. Gödelova věta nemluví o realitě — mluví o našich modelech reality.

Realita nepotřebuje axiomy

A tady je zásadní rozlišení, které se často přehlíží. Realita není soubor axiomů. Nemá odvozovací pravidla. Prostě existuje — sama o sobě, nezávisle na tom, jakými nástroji ji popisujeme.

Jablko padá ze stromu bez ohledu na to, jestli máme Newtonovu mechaniku, obecnou relativitu, nebo žádnou teorii. Recept na svíčkovou existuje na tom blogu bez ohledu na to, jestli ho Google najde.

Gödelovy limity se tedy netýkají světa samotného. Týkají se nástrojů, kterými se svět snažíme popsat, prohledat a pochopit. Každý model, každá teorie, každý algoritmus — to všechno jsou nástroje s definovanými pravidly. A jako takové mají meze, za které nedohlédnou.

Vyhledávač jako systém pravidel

Internetový vyhledávač je přesně takový nástroj. Má definovaný způsob, jak rozhoduje o relevanci — skórovací funkce, pravidla pro shodu slov, váhy jednotlivých signálů. Když zadáte dotaz, vyhledávač projde svá pravidla a vrátí výsledky, které z nich vyplývají.

Gödelova věta se na vyhledávač nevztahuje přímo — ten neřeší aritmetické důkazy. Ale princip, který Gödel odhalil, platí v obecnější podobě: každý konečný soubor pravidel má věci, které nedokáže postihnout. A právě proto nutně existují relevantní dokumenty, které vyhledávač nenajde. Ne kvůli chybě v implementaci — kvůli principiální vlastnosti každého systému, který funguje na pravidlech.

Konkrétní příklad: klasické vyhledávání funguje na shodě slov. Hledáte-li „jak opravit kapající kohoutek“, najde stránky obsahující tato slova. Ale co stránka, která problém popisuje jako „řešení úniku vody z baterie”? Říká totéž, ale jinými slovy. Pravidla pro shodu slov ji přehlédnou — ne proto, že by byla špatná pravidla, ale proto, že žádná konečná sada pravidel pro shodu slov nepokryje všechny způsoby, jak lze jednu myšlenku vyjádřit.

Sémantické vyhledávání: jiná pravidla, jiné limity

Moderní vyhledávače tento problém řeší takzvaným sémantickým vyhledáváním. Místo shody slov převedou dotaz i dokumenty do matematického prostoru, kde „kapající kohoutek“ a „únik vody z baterie“ leží blízko sebe, protože znamenají podobnou věc.

Vypadá to jako řešení. Ale není — je to jen posun hranic. Sémantické vyhledávání má vlastní omezení. Funguje skvěle pro běžné dotazy, kde se naučilo z milionů příkladů, co je „blízko“ čemu. Ale selhává tam, kde kontext mění význam nepředvídatelně, kde jde o úzce specializované obory s vlastním žargonem, nebo kde relevance závisí na něčem, co nejde zachytit blízkostí v matematickém prostoru.

Znovu: ne proto, že by systém byl špatně navržený. Proto, že jakýkoli jednotlivý způsob rozhodování — byť sofistikovaný — má meze, za kterými leží věci, na které nestačí.

Strukturovaná data: nejpřísnější pravidla, nejostřejší meze

Existuje ještě třetí přístup k vyhledávání, který vypadá jako nejspolehlivější ze všech. Místo prohledávání volného textu můžete hledat ve strukturovaných datech — v katalozích, registrech, znalostních grafech jako Wikidata. Fakta jsou tu uložena jako přesné vztahy mezi entitami. Hrad Karlštejn je instancí hradu, leží v okrese Beroun, založil ho Karel IV. v roce 1348. Čistá struktura, žádná dvojznačnost slov.

Na první pohled to vypadá jako únik z dilematu. Žádné hádání relevance, žádná sémantická mlha — buď údaj ve struktuře je, nebo není. Jenže právě tato přesnost odhaluje slabiny pravidlového přístupu ještě ostřeji.

První problém je předpoklad uzavřeného světa. Strukturovaná data pracují s pravidlem: co v nich není, neexistuje. Zeptáte-li se „které české hrady stojí na pískovcové skále“, dotaz vrátí jen hrady, u nichž někdo tuto vlastnost vyplnil. Hrad Kost na pískovcovém ostrohu v Českém ráji stojí — ale pokud to ve struktuře chybí, pro systém neexistuje. Realita je bohatší než jakákoli datová struktura a vždy bohatší bude.

Druhý problém je rigidita schématu. Dotaz můžete položit jen na vlastnosti, které někdo předem definoval. Pokud neexistuje pole „geologické podloží“, nemůžete se na ně zeptat — bez ohledu na to, kolik hradů je evidováno. Systém tu nelimituje jen odpovědi, ale i otázky, které jde vůbec položit.

Třetí problém je meze klasifikace. Strukturovaná data vyžadují taxonomii — zatřídění věcí do kategorií a podkategorií. Ale realita žádnou přirozenou taxonomii nemá. Každá klasifikace je náš model a jako každý model je neúplná. Věci, které spadají mezi kategorie nebo je protínají neočekávaným způsobem, tímto sítem propadnou.

Hledání ve strukturovaných datech je tak svázané hned dvakrát: schématem, které vymezuje, na co se dá ptát, a daty, která určují, co se dá najít.

Tři pohledy, jedno hledání

Máme tedy tři zásadně odlišné přístupy k vyhledávání. Lexikální hledá shodu slov — selhává, když lidé říkají totéž různými slovy. Sémantické hledá blízkost významu — selhává, když kontext mění význam nebo jde o přesnou terminologii. Strukturované hledá v katalozích a grafech — selhává tam, kde data chybějí nebo kde schéma nedovolí otázku vůbec položit.

Každý z nich je jiný nástroj s jinými omezeními. A právě proto má smysl je kombinovat: nedostatky jednoho přístupu kompenzuje silná stránka druhého. Lexikální vyhledávání spolehlivě najde přesný termín, který sémantické rozmlží. Sémantické překoná jazykovou bariéru, o kterou lexikální zakopne. Strukturované odpoví na přesně formulovanou otázku, na kterou oba textové přístupy mohou jen hádat.

Ne dokonale — výsledná kombinace je stále konečný nástroj a má vlastní meze. Ale ty meze jsou výrazně užší než u kteréhokoli jednotlivého přístupu.

To není inženýrský kompromis. Je to důsledek toho, jak fungují konečné modely ve vztahu k realitě, kterou se snaží zachytit. Matematika i teorie informace ukazují totéž: žádný konečný popis nemůže plně obsáhnout to, co popisuje.

Co z toho plyne

Příště, až vám vyhledávač nenajde to, co hledáte, vězte: není to jen technický nedostatek, který vyřeší příští verze algoritmu. Je to vlastnost každého nástroje postaveného na pravidlech — ať už hledá slova, významy, nebo vztahy — který se snaží zachytit svět, jenž se do žádného konečného popisu nevejde.

Kurt Gödel to ukázal pro matematiku. Pro internetové vyhledávání platí totéž v analogickém smyslu — jen s tím rozdílem, že místo aritmetických pravd hledáme recepty na svíčkovou.

Transparentnost tvorby:

Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude, Anthropic) byla využita jako nástroj pro rešerši, ověřování faktů a rozepsání autorovy předlohy.

Autor výstupy průběžně redigoval, ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez lidské kontroly. Všechny faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.

Postup je v souladu s požadavky Čl. 50 Nařízení EU 2024/1689 (AI Act) na transparentnost AI-generovaného obsahu. #poweredByAI

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Proč vám Google nemůže najít všechno — a proč za to nemůže Google

Článek

Co mají společného matematika z roku 1931 a vyhledávač na internetu

Gödel a limity každého systému pravidel

Realita nepotřebuje axiomy

Vyhledávač jako systém pravidel

Sémantické vyhledávání: jiná pravidla, jiné limity

Strukturovaná data: nejpřísnější pravidla, nejostřejší meze

Tři pohledy, jedno hledání

Co z toho plyne

Postranní panel

Další články autora

Internet, technologie a elektronika Starý model nikdo nepoužívá. Přesto ho nejde vypnout

Internet, technologie a elektronika Certifikovaná lež: když firemní AI odpoví z neúplného obzoru

Internet, technologie a elektronika Kvantizovat, ne zkracovat: float32 embedding je z většiny prázdné místo

Sdílejte s lidmi své příběhy

Další články autora

Internet, technologie a elektronika Starý model nikdo nepoužívá. Přesto ho nejde vypnout

Internet, technologie a elektronika Certifikovaná lež: když firemní AI odpoví z neúplného obzoru

Internet, technologie a elektronika Kvantizovat, ne zkracovat: float32 embedding je z většiny prázdné místo

Internet, technologie a elektronika Skvělý Claude, slabší impérium. Proč může být IPO Anthropicu past

Internet, technologie a elektronika Už nejsi autor. Jak vás textový editor připraví o práva

Doporučované

Postranní panel