Hlavní obsah

Jak správně číst statistiky a proč je transparentnost tak důležitá

Foto: Martin Tůma - vytvořila AI VaibeAI

Jak rozumět statistikám pro pokročilé. Pokračování Tim se ptá: Proč a jak funguje vesmír, co se na papír nevešlo

Článek

Drahý Time,

dneska odbočíme z hájemství čisté fyziky a podíváme se opět na statistiku. Bez ní se neobejde ani teoretická fyzika, která vytváří hypotézy, tak ani experimentální fyzika, která se snaží tyto hypotézy potvrdit nebo vyvrátit. V tomhle článku jsme se bavili o tom, jak poznat, že daný jev není anebo je zatížený chybou měření, a také pravidlo 3σ, tedy jak moc je daný jev jistý. Dneska se ale podíváme na pár způsobů, které mohou statistiku posunout velmi nežádoucím směrem.

Vliv přeživších

Ve druhé světové válce Spojenci při bombardování ztráceli obrovské množství letadel. Proto se rozhodli zapojit do hry statistiku a požádali vědce, aby podle zjištěných zásahů letadel protiletadlovou palbou a stíhačkami nepřítele zjistili oblasti v trupu a křídlech letadla, které patří mezi nejčastěji zasažené. Dostali takovýto obrázek:

Foto: By Martin Grandjean, McGeddon CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=102017718

Nejpravděpodobnější místa zásahu palbou na letadle

Logicky na první pohled by se vyplatilo posílit konstrukci letadla na místech, kde je nejvíce červených teček. Ale to by byla zásadní chyba. Na to upozornil generály Abraham Wald. Problém není v metodice měření a určení statistiky, ale ve výběru vzorku dat. Do statistiky se logicky dostala jenom ta letadla, která se vrátila z náletu. Proto je potřeba posílit naopak ta bílá místa, místa bez zásahů, protože trefa do bílého místa znamená, že se letadlo nevrátilo. A nemohlo tak být zahrnuto do měření. Říká se tomu, že vzorek dat je zaujatý, vliv přeživších.

Ve statistice pracujeme s populací, což jsou v našem případě všechna letadla, která letěla nad Německo. Z ní vybereme vzorek, což jsou stroje, které se vrátily. Nad nimi provedeme měření a zkonstruujeme statistiku, což je obrázek průstřelů. A pokud je náš vzorek zaujatý, někdy se tomu anglicky říká biased, nebo že má bias, tak je celá naše precizně zpracovaná statistika úplně k ničemu.

Zdaleka to neplatí jenom o letadlech. Třeba postoj, že vysoká škola je k ničemu se opírá o to, že Gates, Zuckerberg nebo Jobs z výšky utekli a kam to dotáhli. Ale to je zaujatý vzorek. Naše populace nejsou úspěšní boháči bez vysoké školy, ale všichni kdo výšku nedodělali. Když se zbavím vlivu přeživších, dostaneme úplně jiný výsledek, který ukazuje, jak důležité je patřičné vzdělání. Tady myslím opravdové vysoké školy, ne Genderová studia nebo Ekonomiku volného času či co to ještě učí nejen v Brně na Fakultě smažení sýra (FSS MU).

Ostatně platí to i o minulosti. Jak se rozplýváme nad starou hudbou, literaturou, stavbami, že tehdy to lidé prostě uměli. I tohle je vliv přeživších. Hudbu, která nestála za nic lidé neposlouchali, knihy nevalné kvality nečetli, nedobré stavby zchátraly a byly zbourány. Do dnešních dob tak přežilo jenom skutečně dobré umění, bez ohledu na to, kolik šumařů a pisálků tehdy bylo.

Bias kam se podíváš

Je to tak. Ukazuje se, že zdaleka složitější než je konstrukce statistiky je výběr správného vzorku. Někdy jde o nehodu, existuje nějaký vnější vliv, který tu statistiku někam posune, typicky třeba nějaká vada v měření, v návrhu pokusu. Proto je tak důležité, aby byla vědecká práce transparentní, aby byla možná její replikace a ověření - vyvrácení. A to je jeden z velkých problémů současné vědy, že tomu tak není. Třeba na začátku hype kolem globálního oteplování byl slavný Hokejkový graf rekonstrukce teplot a jejich predikce od Michaele Manna a jeho kolektivu. Dost působivé, aby to spustilo paniku. Až později, v rámci Climategate, vyšlo najevo, že podobný graf lze za použití Mannovy statistiky udělat i z bílého šumu, aneb nejdříve byl znám výsledek a pak se dělala statistika. Asi něco podobného, jako když jsme na výšce měřili beta rozpad a vyšlo nám to o pár řádu jinde. Naprosto zděšeni jsme provedli „revalidaci“ měřených výsledků v počítači a najednou to krásně vycházelo. Co jsme nevěděli, bylo, že celé měření je duchařina a má to vycházet o pár řádu jinde. Naštěstí jsme to ukecali, že jsme kluci šikovní a zápočet byl. To Mann to neukecá, má z ostudy kabát, ale to je v rámci klima hnutí jenom zanedbatelný fakt, když se kácí les, tak prostě lítají třísky.

WEIRD bias

Další velmi slavný bias. WEIRD, neboli divný, je vlastně zkratka z Western, Educated, Industrialized, Rich, Democratic. Na tento jev upozornili ve své práci Joseph Henrich a kolektiv v roce 2010.

Oč jde? V podstatě o to, že výzkumníci z psychologie, ekonomie a dalších věd pro řadu svých studií spoléhala na nejbližší zdroje. Tedy jejich typický vzorek se skládal ze západních, převážně bílých, univerzitních studentů a studentek. A na základě tohoto vzorku potom zobecňovali svoje zjištěné poznatky na celé lidstvo.

Uvedu příklad z ekonomie a Hry na ultimáta, poměrně jednoduchá hra pro dva hráče. Dostanou dohromady třeba tisíc korun a jeden z nich rozhoduje, jak peníze rozdělí. Ten druhý potom s nabídkou souhlasí a peníze jsou vyplaceny, nebo nesouhlasí a peníze propadnou. WEIRD vzorek ukázal, že neakceptuje neférové nabídky, tedy že třeba ten, co navrhuje rozdělení peněz si nechá 900 Kč a druhému dá jenom 100 Kč. Ovšem Indiáni v Amazonii jsou rádi za každou nabídku a podobné věci neřeší. A tak to bylo v celé řadě studií.

Zaujal mne velmi Müller-Lyerova iluze. Podívej se na následující obrázek a řekni, která úsečka je delší:

Foto: Müller-Lyer Illusion Public Domain, https://commons.wikimedia.org/w/index.php?curid=109553102

Müller-Lyer Illusion

Je to chyták, když si vezmeš pravítko, zjistíš, že se jedná o optický klam, na který skočí většina lidí. Ukazuje se, že naše vnímání je velmi odlišné od lidí, kteří nežijí v prostředí pravoúhlých staveb, třeba Křováci na Kalahari na tohle nenaletí.

Je tedy důležité nezkoumat jenom výsledky statistik, ale i to, jakým způsobem byly zkonstruovány. Někdy, jako třeba u WEIRD biasu nemusí jít o vědomý úmysl, ale někdy je to prostě podvod. Asi jako se vším, je potřeba si to dát do kontextu.

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít publikovat svůj obsah. To nejlepší se může zobrazit i na hlavní stránce Seznam.cz