Hlavní obsah

Kdy druhý pohled pomáhá a kdy je to jen tentýž omyl dvakrát

Foto: Google Gemini

Dvě lupy zkoumají tentýž list papíru z různých stran.

Odvolací soudy, recenze i kontrola kódu věří, že druhý kontrolor chybu najde. Data ukazují: nerozhoduje počet kontrolorů, ale jejich vzájemná nezávislost - a řetězení revizí je nejslabší.

Článek

Odvolací soudy, vědecké recenze, code review i kontrola účetních výkazů stojí na stejném předpokladu: že nezávislý kontrolor spolehlivě najde chybu. Data z mamografie, softwarových inspekcí a klinických studií ukazují, že na výsledku nerozhoduje počet kontrolorů, ale jedna těžko zajistitelná vlastnost - jejich vzájemná nezávislost.

Kohortou britské studie CO-OPS prošlo 805 206 žen a každý jejich mamografický snímek četli nezávisle na sobě dva radiologové. Tam, kde se rozcházeli, rozhodl třetí lékař v arbitráži. Druhý čtenář přidal k záchytu 627 nádorů, které první přehlédl - necelých 9 % všech nalezených. A arbitráž zároveň srazila míru zbytečných pozvání žen na další vyšetření z 6,19 % na 4,08 %, tedy pod úroveň, jakou mělo čtení jediným radiologem (4,76 %). Více nalezené rakoviny a méně falešných poplachů najednou; data publikoval tým Taylor-Phillipsové v Radiology v roce 2018.

Mamografie je výjimečná tím, že se na ní užitečnost kontroly měří v zachráněných životech a v míře zbytečných pozvání. Stejnou architekturu - někdo něco udělá, někdo jiný to přezkoumá - ale používáme všude. Odvolací soud přezkoumává prvostupňový rozsudek. Vědecký recenzent posuzuje cizí studii. Programátor čte kód kolegy. A v posledních dvou letech k tomu přibyl mimořádně plodný zdroj omylů, které je potřeba kontrolovat: text a kód generovaný umělou inteligencí. Otázka, zda druhý pohled vůbec pomáhá a jak ho uspořádat, tím přestala být akademická.

Odpověď, kterou věda dává, je nepříjemně přesná. Druhý pohled pomáhá, ale mnohem méně a za mnohem užších podmínek, než věříme. Nerozhoduje počet kontrolorů; rozhoduje jejich vzájemná nezávislost. A topologie, kterou intuitivně považujeme za nejdůkladnější - řetězení, kdy revizi přezkoumá další revize - je ve skutečnosti nejslabší ze všech.

Začít je třeba u toho, proč je kontrola křehčí, než se zdá. Ověřit cizí práci totiž není slabší verze té práce; je to jiná a v důležitém ohledu těžší úloha. Aby kontrolor skutečně ověřil výsledek, musel by zrekonstruovat celý problém, kterým autor prošel - jenže s menším kontextem, menším časem a bez tiché znalosti, proč padla která volba. V krajním případě je jediný způsob, jak něco doopravdy ověřit, udělat to znovu. Kontrolor proto dělá to jediné, co je v jeho silách: hledá, co vypadá špatně, ne to, co je špatně. Spokojí se s věrohodností. Když British Medical Journal vložil do testovacích rukopisů devět záměrných závažných chyb a rozeslal je 607 recenzentům, našli v průměru 2,58 z nich; trénink to zlepšil jen nepatrně a jeho efekt se brzy vytratil (Schroter a kol., 2008). Bývalý šéfredaktor časopisu Richard Smith to shrnul tak, že recenze nestojí na ověřování, ale na důvěře.

Tady se rozhoduje mezi topologiemi. Sekvenční řetězec - autor, první revizor, druhý revizor, který vidí verdikt prvního - dědí kotvu. Druhý kontrolor nečte čistý originál, ale názor svého předchůdce, a jeho úkol se nepozorovaně mění z otázky „jaká je správná odpověď?“ na otázku „mýlí se ten přede mnou?“. Konfirmační zkreslení je přitom v sekvenčním uspořádání prokazatelně silnější než tehdy, když člověk dostane informace najednou (Jonas a kol., 2001). Randomizovaný experiment s recenzenty ukázal, že upravené hodnocení zůstává blíž tomu původnímu, než by byl nezaujatý nový pohled (Liu a kol., 2024). Řetěz tak míří k průniku chyb, které propadnou oběma síty - ne k jejich součtu.

Paralelní uspořádání ten poměr obrací. Dva kontroloři, kteří posoudí týž originál nezávisle a poslepu vůči sobě, zachytí součet svých nálezů. V nejčistším experimentu na screeningu studií dosáhlo dvojí nezávislé posouzení citlivosti 97,5 %, zatímco jediný posuzovatel jen 86,6 %; sám přehlédl 13 % relevantních prací, dvojice 3 % (Gartlehner a kol., 2020). Při extrakci dat ze studií udělala jediná extrakce o 21,7 % více chyb než dvojí nezávislá (p = 0,019), zato byla o 36,1 % rychlejší (p = 0,003) - výměna mezi přesností a časem, ne mezi přesností a ničím (Buscemi a kol., 2006). Logika je prostá a nemilosrdná: pokud každý z dvojice najde 85 % zachytitelných chyb a jejich omyly jsou nezávislé, společně jich najdou skoro 98 %. Pokud se jejich omyly překrývají, najdou stěží víc než jeden sám.

Tím se dostáváme k otázce, která stála na začátku tohoto textu: má smysl přidat k dvojímu posouzení ještě fázi, kdy si kontroloři výstupy vymění a vzájemně je posoudí, případně rozpor rozhodne třetí? Odpověď zní ano, ale ne z důvodu, který bychom čekali. Smíření a arbitráž neslouží primárně k tomu, aby našly nové chyby - slouží k tomu, aby odstranily falešné poplachy. Ve florentském programu prošlo arbitráží 1 217 rozporných dvojích čtení. Arbitr poslal na další vyšetření 476 z nich (39,2 %) a odhalil tak 30 nádorů; zbylých 741 případů (60,8 %) zamítl, a ušetřil tak ženám zbytečné vyšetření - přičemž z 311 dosud sledovaných zamítnutých se objevily jen dva nádory (0,64 %). Třicet zachycených nádorů proti dvěma přehlédnutým: arbitráž odřízla většinu zbytečných pozvání a zaplatila za to minimem uniklých nálezů (Ciatto a kol., 2005). A na softwarových inspekcích, kde se tato otázka měří nejdéle, vychází ještě tvrdší poznatek. Když Lawrence Votta v roce 1993 změřil, co inspekční schůzka přidá k chybám nalezeným při samostatné přípravě, vyšlo mu jen velmi málo - a přitom schůzky podle něj stojí mnohem víc času vývoje i vývojářů, než si kdokoli uvědomuje. Replikace to potvrdily: nominální tým, jehož členové pracují odděleně a nálezy se jen sečtou, překonává reálný tým se schůzkou napříč všemi třídami defektů, protože „ztráty ze schůzky“ - chyby, které jeden inspektor našel, ale na schůzce nezazněly - převažují nad „zisky ze schůzky“ (Porter a kol., 1995; Bianchi a kol., 2001).

Nezávislost je ta jediná veličina, na které všechno stojí

Nejsilnější námitka proti tomu zní: vždyť diskuse přece najde to, co jednotlivec přehlédl. A někdy skutečně ano. Multidisciplinární onkologické komise mění původní diagnózu nebo léčebný plán u značné části případů - prospektivní studie z gynekologické onkologie zaznamenala změnu plánu u 27,1 % a změnu diagnózy u 9,4 % pacientek (B. Lee a kol., 2017) a mezinárodní průzkum ASCO uvádí změny léčebného plánu u 44 až 50 % případů karcinomu prsu a tlustého střeva (El Saghir a kol., 2015). V predikčním výzkumu zase týmy v Good Judgment Project překonaly jak sdílení odhadů, tak plně nezávislé prognostiky (Mellers a kol., 2014). Jenže právě tyto případy odhalují podmínku, za níž diskuse pomáhá. Onkologická komise není tentýž pohled dvakrát; je to radiolog, patolog, chirurg a onkolog, z nichž každý přináší informaci, kterou ostatní nemají. A týmy superprognostiků byly cvičené sdílet argumenty, ne závěry, a držet vysoký standard důkazu. Tam, kde kontroloři sdílejí výcvik a dívají se na týž artefakt stejnýma očima - jako softwaroví inspektoři - schůzka spotřebuje koordinační náklad a žádný úměrný zisk nepřinese. Strukturovaná výměna stanovisek metodou Delphi se v přímém srovnání ukázala být přesně tak dobrá jako schůzka tváří v tvář, na dvou otázkách z deseti dokonce lepší (Graefe a Armstrong, 2011).

Vším, co bylo dosud řečeno, prosvítá jeden a týž činitel. Užitek libovolné kontrolní topologie je shora omezen tím, nakolik jsou omyly kontrolorů nezávislé. Když se jejich chyby překrývají, neruší se. Co nezávislost ničí, je dobře zmapované: viditelnost předchozího verdiktu, společný výcvik a doktrína, hierarchie, která nutí mladšího ustoupit staršímu. Skupiny navíc samy o sobě nezávislost neobnovují - v klasickém experimentu se skrytým profilem zvolilo nejlepší variantu jen 18 % skupin, když měl každý člen jiné informace, ale 83 %, když měli všichni stejné, protože skupiny přednostně probírají to, co už sdílejí (Stasser a Titus, 1985). Z téhož důvodu má přidávání dalších kontrolorů strmě klesající výnos: dva recenzenti najdou v softwarové inspekci téměř tolik co čtyři a nejlepší konfigurací jsou dvě sezení po dvou (Porter a kol., 1997). O výsledku rozhoduje spíš odbornost jednotlivce než počet kontrolorů (Sauer a kol., 2000).

Stojí za to dodat střízlivou poznámku, kterou rešerše vynesla na světlo: víc procedurální přísnosti není totéž co víc pravdy. Když nezávislá komise v klinické studii ADVANCE přehodnotila 2 443 událostí hlášených zkoušejícími, potvrdila 2 077 z nich (85 %) a několik desítek přidala - ale odhad léčebného účinku se prakticky nepohnul (Hata a kol., 2013). Adjudikace zde sloužila obhajitelnosti a auditní stopě, ne přesnějšímu výsledku.

A pak je tu nový hráč. Když výzkumníci z METR nechali šestnáct zkušených programátorů pracovat na vlastních projektech s pokročilými nástroji AI i bez nich, byli s AI o 19 % pomalejší - ačkoli věřili, že jsou o 20 % rychlejší (METR, 2025). Je to snímek z počátku roku 2025 na malém vzorku a sám tým ho v únoru 2026 opatrně relativizoval, když novější měření čistý signál nedalo; co ale zůstává, je ten rozestup mezi pocitem a měřením - kontrola výstupu si vybrala daň, kterou mozek systematicky podhodnotil. Microsoft Research přitom u 319 znalostních pracovníků zjistil, že čím vyšší důvěra v AI, tím méně kritického myšlení (Lee a kol., 2025). Tatáž technologie ale může být i tím vzácným druhým čtenářem, jehož slepá místa se s těmi lidskými nepřekrývají. V hodnocení screeningu studií překonal automatizovaný pracovní postup s velkým jazykovým modelem dvojici lidských posuzovatelů (citlivost 96,7 % proti 81,7 %; Bobrovitz a kol., 2025) a v mamografii by nahrazení druhého lidského čtenáře umělou inteligencí snížilo zátěž radiologů o 30 až 44,8 % (Sharma a kol., 2023). Podmínka ovšem zůstává tatáž jako u dvou lidí: prospěch nastane jen tehdy, jsou-li chyby stroje opravdu jiné než chyby člověka.

Nejlevnější druhý názor je ten, který si vynutíte ve vlastní hlavě - i pouhé „uvažuj o opaku“ obnoví zhruba polovinu zisku, jaký by přinesl skutečný druhý člověk (Herzog a Hertwig, 2009). Pro každou redakční radu, odvolací senát i posudkovou komisi tak zbývá nepříjemný test, který britští radiologové zvládli: jsou vaši dva čtenáři opravdu dva, nebo je to totéž vycvičené oko, které se dívá podruhé?

Zdroje

Citace jsou rozlišeny podle síly. Primární = původní recenzovaná studie nebo oficiální zpráva; sekundární = souhrn či sekundární referování.

  • Taylor-Phillips, S. a kol. (2018). Double Reading in Breast Cancer Screening: Cohort Evaluation in the CO-OPS Trial. Radiology 287(3):749–757. [primární]
  • Schroter, S.; Black, N.; Evans, S.; Godlee, F.; Osorio, L.; Smith, R. (2008). What errors do peer reviewers detect, and does training improve their ability to detect them? Journal of the Royal Society of Medicine 101(10):507–514. [primární]
  • Smith, R. (2006). Peer review: a flawed process at the heart of science and journals. J R Soc Med 99(4):178–182 / PMC1420798. [primární - komentář]
  • Jonas, E.; Schulz-Hardt, S.; Frey, D.; Thelen, N. (2001). Confirmation bias in sequential information search after preliminary decisions. Journal of Personality and Social Psychology 80(4):557–571. [primární]
  • Liu, R.; Jecmen, S.; Conitzer, V.; Fang, F.; Shah, N. B. (2024). Testing for Reviewer Anchoring in Peer Review: A Randomized Controlled Trial. PLoS ONE 19(11):e0301111 (preprint arXiv:2307.05443, 2023). [primární]
  • Gartlehner, G. a kol. (2020). Single-reviewer abstract screening missed 13 percent of relevant studies: a crowd-based, randomized controlled trial. Journal of Clinical Epidemiology 121:20–28 (280 účastníků, 24 942 rozhodnutí). [primární]
  • Buscemi, N. a kol. (2006). Single data extraction generated more errors than double data extraction in systematic reviews. Journal of Clinical Epidemiology 59(7):697–703. [primární]
  • Ciatto, S. a kol. (2005). The role of arbitration of discordant reports at double reading of screening mammograms. J Med Screen 12(3):125–127. [primární]
  • Votta, L. G. (1993). Does Every Inspection Need a Meeting? ACM SIGSOFT Software Engineering Notes 18(5):107–114 (Bellovy laboratoře AT&T). [primární]
  • Porter, A.; Votta, L.; Basili, V. (1995). Comparing detection methods for software requirements inspections: A replicated experiment. IEEE TSE. [primární]
  • Bianchi, A.; Lanubile, F.; Visaggio, G. (2001). A controlled experiment to assess the effectiveness of inspection meetings. [primární]
  • Porter, A.; Siy, H.; Toman, C.; Votta, L. (1997). An experiment to assess the cost-benefits of code inspections in large scale software development. IEEE TSE. [primární]
  • Sauer, C.; Jeffery, D. R.; Land, L.; Yetton, P. (2000). The effectiveness of software development technical reviews: A behaviorally motivated program of research. IEEE TSE 26(1):1–14.
  • Stasser, G.; Titus, W. (1985). Pooling of unshared information in group decision making: Biased information sampling during discussion (18 % vs. 83 %). Journal of Personality and Social Psychology 48:1467–1478. [primární]
  • Lee, B. a kol. (2017). Efficacy of the multidisciplinary tumor board conference in gynecologic oncology: A prospective study (85 případů, 27,1 % změna plánu, 9,4 % změna diagnózy). Medicine (Baltimore) / PMC5728725. [primární]
  • El Saghir, N. S. a kol. (2015). Global Practice and Efficiency of Multidisciplinary Tumor Boards: Results of an ASCO International Survey (501 respondentů). JCO Global Oncology 1:57–64 / PMC5539869. [primární - průzkum]
  • Mellers, B. a kol. (2014). Psychological strategies for winning a geopolitical forecasting tournament (Good Judgment Project; týmy > sdílení > nezávislost). Psychological Science 25:1106–1115. [primární]
  • Graefe, A.; Armstrong, J. S. (2011). Comparing face-to-face meetings, nominal groups, Delphi and prediction markets on an estimation task. International Journal of Forecasting 27(1):183–195. [primární]
  • Hata, J. a kol. (2013). Effects of the Endpoint Adjudication Process on the Results of a Randomised Controlled Trial: The ADVANCE Trial (n = 11 140; potvrzeno 85 %, účinek 8 % vs. 9 %). PLoS ONE 8(2):e55807 / PMC3563633. [primární]
  • METR (2025). Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity. arXiv:2507.09089. [primární; RCT, 16 vývojářů, 246 úkolů. Pozn.: METR v únoru 2026 uvedl, že navazující měření dává nespolehlivý signál kvůli sebevýběru účastníků - původní RCT tím není odvolán, ale je to snímek počátku roku 2025 na malém vzorku.]
  • Lee, H.-P. a kol. (Microsoft Research, 2025). The Impact of Generative AI on Critical Thinking: Self-Reported Reductions in Cognitive Effort and Confidence Effects From a Survey of Knowledge Workers (CHI 2025, 319 pracovníků). [primární]
  • Bobrovitz, N. a kol. (2025). Automation of Systematic Reviews with Large Language Models (otto-SR; první autor Cao). medRxiv. [primární - preprint]
  • Sharma, N. a kol. (2023). Multi-vendor evaluation of artificial intelligence as an independent reader for double reading in breast cancer screening on 275 900 mammograms. BMC Cancer 23:460 / PMC10197505. [primární]
  • Herzog, S. M.; Hertwig, R. (2009). The wisdom of many in one mind: Improving individual judgments with dialectical bootstrapping („crowd within”). Psychological Science 20(2):231–237. [primární]
  • Posso, M. a kol. (2016). Double versus single reading of mammograms in a breast cancer screening programme: a cost-consequence analysis (dvojí čtení o 15 % dražší, rozdíl v záchytu nesignifikantní, p = 0,283). European Radiology 26(9):3262–3271. [primární]

Pozn. k metodě: tvrzení o softwarových inspekčních schůzkách (Votta a navazující práce) je silným důkazem proti schůzce jako nástroji detekce chyb, nikoli proti schůzce jako takové - část autorů jí přiznává hodnotu pro přenos znalostí a školení. Nákladová efektivita dvojího čtení mamogramů je sporná (Posso a kol., 2016 vůči Taylor-Phillipsové a kol., 2018) a doporučení se liší mezi evropskými a americkými programy.

Transparentnost tvorby:

Koncepce, struktura a redakční linie článku jsou dílem autora, který vypracoval obsahovou skicu, stanovil klíčové teze a řídil celý proces tvorby. Generativní AI (Claude, Anthropic) byla využita jako nástroj pro rešerši, vyhledávání primárních zdrojů a formulační rozpracování autorovy obsahové skici.

Autor výstupy průběžně redigoval, ověřil klíčová zjištění a schválil finální znění. Žádná část textu nebyla publikována bez lidské kontroly. Všechny faktické údaje byly ověřeny proti veřejně dostupným zdrojům uvedeným v textu.

Postup je v souladu s požadavky čl. 50 Nařízení EU 2024/1689 (AI Act) na transparentnost AI-generovaného obsahu. #poweredByAI

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Související témata:

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít publikovat svůj obsah. To nejlepší se může zobrazit i na hlavní stránce Seznam.cz