Je v datech pravda?

Článek

„In God we trust; all others must bring data“ („V Boha věříme, ostatní musí poskytnout data“) je sebevědomý a vtipný výrok připisovaný americkému statistikovi minulého století Williamu E. Demingovi. Možná jsme si s tím citátem dlouho hráli něco podobného dětské hře na tichou poštu, že se nám do dnešních dnů v mnoha případech přenesla podivně zkreslená a nepřesně komprimovaná verze: „In Data we trust“. Jaké to je věřit datům?

S trochou nadsázky se budu označovat za odpadlíka od myšlenky o „dataismu“. Tedy přesvědčení, že pravdu můžeme poznat strojovým zpracováním dat. Falešní proroci tohoto nového náboženství sice nezvěstují zjevené boží pravdy, ale zato pobíhají po světě s různými excelovskými tabulkami a mnohdy pochybnými grafy.

Čím více dat, tím více pravdy! Ačkoliv to určitě v mnoha případech platí, celkově tento koncept vytváří mylný dojem, že univerzální všeobecně a všude platné pravdy lze nějak technicky dosáhnout (a ještě na základě takové domnělé pravdy hodnotit ostatní a nastavovat pravidla chování).

Pravdu si pro sebe definuji jako (často docela komplexní) informaci, která není v rozporu s daty. Ale s jakými daty? Jenom takovými, která představují dostupný kontext mé pravdy. Kontext je geniální součást teorie informace. Jednoduchý symbol se díky správnému kontextu může stát důležitou informací. Například symbol * zobrazený v této větě nenese prakticky žádnou informaci. Stejný symbol zobrazený na dálniční světelné tabuli představuje důležitý údaj, který si řidiči interpretují jako informaci o námraze na vozovce. Jeden jediný znak ve správném kontextu může zabránit hromadné nehodě.

Na makroúrovni našeho světa (tedy v rozměrech, které měříme spíše v metrech než pikometrech a spíše v hodinách než attosekundách), tvoří kontext veškerá data, která jsou nějak rozumně v dosahu. Poblíž v čase i prostoru a možná i poblíž nějak prakticky nebo pravděpodobnostně. Ona ta hvězdička na dálniční tabuli mohla také být chybou nějakého programátora, ale je to spíš nepravděpodobné (v kontextu toho, co jsem za programátorské chyby už viděl). Každou informaci, o které chceme pro svůj klid a správné rozhodování říci, že je pravdivá, porovnáváme s dostupnými daty a fakty a vážíme ta, která jsou v souladu a ta, která jsou v rozporu s naší pravdou. Teoreticky by bezrozporná pravda měla mít stoprocentní soulad s daty. My ale věříme, že něco je pravda, i pokud je tam nějaká míra nesouladu. Ten může představovat informační šum (prostě nějakou chybu v přenosu informace). Je na nás, jak poctiví a zároveň praktičtí budeme v našich nárocích na absenci šumu. Je poctivé požadovat nulový šum, ale daleko bychom s tím prakticky asi nedošli.

Teď už víme, že pravdivost informace posuzujeme v rámci dostupného kontextu. A dostupný kontext je vždy omezený. V našem praktickém životě i v astronomických délkách. Například věříme, že uspořádání všech číslic v desetinném rozvoji čísla Pí (∏) je dokonale náhodné. Dnes už máme k dispozici Pí spočítané s přesností na 1012 desetinných míst a stále je četnost všech takových číslic rovnoměrně a náhodně rozdělená. A to dokonce tak, že žádný jiný umělý generátor náhodných čísel nedokáže lépe splnit námi definovaná kritéria náhodnosti. Deset na dvanáctou představuje už opravdu dost velký vzorek, takže v praktickém kontextu bych naprostou nahodilost číslic v desetinném rozvoji Pí považoval za pravdivou. Alespoň tedy pro sebe.

A tím se dostáváme k roli subjektu v pravdě. Na našich lidských měřítcích je pravda z povahy věci vždy interpretační, subjektivní a lokální *). I pokud odstraním veškerý šum (jako evidentně u zkoumání čísla Pí), nemám jistotu, že zvětšením zkoumaného vzorku nebudou hned od pozice třeba 1013+1 v čísle Pí samé nuly nebo zpráva od mimozemšťanů. Subjektivní proto, že si každý sám pro sebe stanoví velikost vzorku (kontextu informace), od kterého bude pravdě věřit. Lokální prostě proto, že v relativistickém světě, je dosah toho, co můžeme vidět omezený. Je omezený třeba rychlostí světla. Nebo je možná omezený zatím nepoznaným limitem absorpce odpadního tepla (entropie) z našich počítačů do okolního vesmíru. V praktickém životě je těch omezení spíš ještě mnohem a mnohem více.

Jinými slovy, kdykoliv máme pocit, že něco je nade vší pochybnost jasné, pravdivé a bezrozporné, musíme si uvědomit, že to platí jen uvnitř naší lokální bubliny. V malé bublině (třeba v příslovečné Platónovské jeskyni) se pravda jeví nepochybná. S velikostí bubliny logicky roste šum a také počet dat, která mohou být s naší jednoduchou pravdou v rozporu a rozšiřuje se kontext, v jehož rámci dostupná data můžeme interpretovat.

Vzpomínám si na film Knoflíkáři, ve kterém redaktor Radia 1 pronáší zhruba toto: „Tenhle svět už neberu jako něco, co bych měl řešit. Prakticky ke každý informaci existuje informace opačnýho významu…“. Pracuji už hodně dlouho s daty a věřte nebo ne, z každého dostatečně velkého množství údajů (třeba záznamů v databázi, datovém skladu nebo zdroji veřejných dat) bych pro libovolné dvě protichůdné hypotézy dokázal poskládat věrohodné a pravdivé (bezrosporné) výstupy, přičemž každý z nich by v rámci našich měřítek fungoval jako dostatečný důkaz jedné nebo druhé hypotézy. (Pokud tohle vaši datoví analytici neumějí, ohlédněte se na trhu práce po jiných. Pokud tohle umějí a dělají to, možná se ohlédněte také po jiných…)

V naší kultuře se s despektem díváme na slovo věřím. Věřit něčemu je takové nevědecké, že ano? Individuální pravda je ale vždy to, čemu v rámci našich omezení uvěříme. V tom uvěření je komplexní projev naší osobnosti. Například to, jak vysoký práh šumu jsme ochotni připustit, kolik rozporných informací zameteme pod koberec nebo jak velký vzorek dat uznáme za dostatečný, abychom něčemu uvěřili (někomu stačí prvních dvacet číslic Pí za desetinou čárkou, jiný pochybuje ještě u 1012). České slovo věřit si v sobě nápadně nese úlomky latinských slov veritas (pravda) nebo verus (pravdivý). Věřit něčemu neznamená vzdát se zdravého rozumu, věřit znamená poctivě a pracně dojít ke své vlastní pravdě.

Práce s informacemi a pravdou je otázkou spíš naší poctivosti, vnitřní morálky a pokory k tomu, že poznání je v našem lidském světě vždy omezené. A to nikoliv obrazně, ale doslova fyzikálně. Pravda není v datech. Naše lidská pravda je vždy lokální a subjektivní.

Přiznejme si, že náš vztah k pravdě je vždy jen a jen tím, čemu sami věříme. Projevem skutečné vnitřní svobody pak je říci: nevím. Ten kdo to dokáže, ponechá ostatním také jejich svobodu rozhodování a hledání vlastní pravdy.

---

*) Poznámka: Nelokální jevy ve fyzice jsou situace, jejichž účastníci (třeba kvantově provázané elektrony) spolu mohou „komunikovat“ bez ohledu na omezení dané relativistickou teorií. Tedy prakticky okamžitě na libovolnou vzdálenost. Jejich revírem je celý vesmír a jejich tempo je více než zběsilé. Fakt se to děje, je to ověřeno mnoha experimenty. Jenže, co platí pro částice neplatí pro člověka. Quid licet Iovi, non licet bovi.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Článek

Postranní panel

Další články autora

Knihy a literatura Zlodějka náhody

Psychologie a seberozvoj Moje duše jako SVJ

Názory a úvahy Spiritualita vs. věda a náboženství

Sdílejte s lidmi své příběhy

Další články autora

Knihy a literatura Zlodějka náhody

Psychologie a seberozvoj Moje duše jako SVJ

Názory a úvahy Spiritualita vs. věda a náboženství

Finance Bitcoin: úspěch moderních alchymistů

Názory a úvahy Nové řešení vězňova dilematu

Doporučované

Postranní panel