Nejsme již androidi?

Článek

Propojení člověka a počítače mě vždycky fascinovalo. V době studia mě zaujala otázka, jak se práce analytika-programátora projevuje ve snech a v řešení úloh v běžném životě. Zda se poněkud nepodobá diagramům, které si analytici kreslili na papír?

Práce programátora je často velmi intenzivní kreativní a soustředěná a lidé „vidí“ její prvky i mimo ni (například při usínání a ve snech). To se dnes označuje jako „Tetris efect“. Pokud se ve snu objeví obsah související s úkolem, lidé po spánku často zlepší výkon v tom úkolu (procedurální i některé kognitivní úlohy).

Později, ale i tak velmi dávno (před dávnými 30 lety) jsem se zajímal o práci týmu psychologů společnosti DELL, která analyzovala přínosy a úbytek schopností vědců, kteří analytickou práci nahradili numerickými metodami. A tak mě napadlo podívat se na ten problém vztahu člověka a počítače dnes a objevují se tu docela zajímavé skutečnosti.

Jak poměřovat AI modely?

Poměřovat výkon generativních modelů (GM) bez člověka je v praxi nepřesné a často zavádějící: správnou jednotkou hodnocení je spíš adaptovaný systém [člověk + GM], protože výsledný výkon vzniká až v interakční smyčce mezi lidskými cíli, pozorností, návyky, frustracemi a schopností ověřovat na jedné straně a generativními schopnostmi GM na straně druhé. Když někdo řekne „tenhle model je lepší než tamten“, obvykle odkazuje na benchmarky nebo pár promptů, jenže v reálné práci GM téměř nikdy nefunguje jako izolovaný objekt: člověk se rychle učí, jak s ním „mluvit“, a zároveň se v čase mění i samotný GM – verzemi, stylem odpovědí, bezpečnostními omezeními i tím, jak drží kontext. Pokud zde vůbec mluvíme o „inteligenci“, pak je to především inteligence člověka a jeho adaptabilita, které se teprve spřahují s výpočetní kapacitou a generativními vzorci GM do jednoho prakticky fungujícího celku. Jádro problému je jednoduché: člověk + GM netvoří „uživatele a nástroj“, ale spíš jeden adaptovaný systém. A pokud chceme mluvit o výkonu, přínosu nebo riziku, musíme hodnotit právě ten systém, nejen samotný model.

1) „Výkon GM“ není totéž co „výkon v praxi“

U klasického softwaru platilo, že se člověk naučí rozhraní (klávesy, myš, příkazy) a pak se výkon stabilizuje. U GM je to dvojí dynamika: uživatel se učí komunikovat s GM a současně se mění chování systému (od aktualizací po jemné změny výstupů). To znamená, praktické že porovnání „GM A vs. GM B“ měří také:

jak rychle se lidé naučí daný systém ovládat,
jaké interakční návyky si v něm vypěstují,
a jakou režii má samotný dialog (iterace, opravování, ověřování).

Tahle logika je přímo obsažená v literatuře o ko-adaptaci: výkon se nemá chápat jako vlastnost komponenty, ale jako vlastnost spřažené soustavy, která se v čase vyvíjí.

2) Ko-adaptace: ne „bug“, ale základní režim fungování

Ko-adaptace znamená, že:

člověk průběžně upravuje strategii (jak se ptá, jak formuluje cíle, jak filtruje výstup, jak moc důvěřuje),
a GM se průběžně mění (i když „jen“ tím, že v novém kontextu generuje jiné výstupy, nebo se aktualizuje), ale učí se i specificky reagovat (nebo ho to učí člověk).

V praxi to vede k paradoxu: dva stejné GM mohou „mít jiný výkon“ u dvou lidí, protože každý z nich si vybuduje jiné mikro-strategie (zkratky, kontrolní rituály, styl promptování, míru delegace). A jeden a tentýž člověk musí mít „jiný výkon“ s týmž GM po týdnu používání než první den.

Tohle není jen filozofie; výzkum ko-adaptace to rámuje jako legitimní designový a evaluační problém: místo otázky „jak dobrý je GM?“ se musíme ptát „jak rychle a stabilně se vytvoří efektivní systém člověk ↔ stroj“.

3) Smíšená iniciativa: kdo vede, kdo kontroluje, kdo mlčí

V praxi se pořád dokola řeší totéž: kdy má GM navrhovat, kdy se ptát, kdy jen doplňovat a kdy naopak nesahat do toku práce. To je klasický problém mixed-initiative interaction (smíšené iniciativy) – a s GM se vrací v plné síle, jen s mnohem vyšší „produkční kapacitou“ návrhů.

Základní princip je střízlivý: proaktivita není nikdy zadarmo. Každý zásah něco stojí – pozornost, přepnutí kontextu, rušení, riziko špatného směru. A dobré rozhraní není to, které „navrhuje nejvíc“, ale to, které umí odhadnout, kdy je zásah přínosnější než rušivý. Tenhle typ principů geniálně formuloval Horvitz už před lety a pro generativní asistenty je překvapivě aktuální.

4) Vznik „metajazyka“: člověk se učí mluvit s GM (a GM si zvyká na člověka)

Po pár dnech používání většina lidí přestane psát „normální věty“ a začne používat účelové konstrukce: seznamy, značky, šablony, role, zkratky typu „dej 3 varianty, každou 5 vět, bez patosu“ (můj případ). To je začátek metajazyka – soukromého kódu, který optimalizuje přenos záměru a který patří nám oběma.

Výzkum ukazuje, že lidé se jazykově přizpůsobují (alignment/accommodation): mění slovník, strukturu, míru zdvořilosti i explicitnost instrukcí. To je důležité, protože:

metajazyk může výkon dramaticky zlepšit (rychlejší konvergence na dobrý výstup),
ale zároveň může vytvářet závislost na konkrétní verzi systému (zkratky přestanou fungovat po update).

Vedle toho existuje i debata o „emergenci konvencí“ na straně agentů; část výsledků je přesvědčivá, část kontroverzní kvůli možnosti, že model jen rozpoznal známý experimentální vzor z tréninku. Pro praxi je však podstatné hlavně to první: metajazyk uživatele je reálný a měřitelný jev, který ovlivňuje výkon systému.

5) „Cognitive offloading“: GM snižuje námahu, ale může měnit hloubku myšlení

Jedna z největších slepých skvrn je rozdíl mezi:

výkonem výstupu (text je „dobrý“),
a výkonem člověka (rozumí tomu, umí to obhájit, umí to zopakovat bez nástroje).

GM svádí k přesunu práce mimo hlavu – kognitivní outsourcing. V řadě situací je to výhra (rychlost, komfort). Ale některé studie ukazují, že nižší subjektivní námaha může souviset s mělkým zpracováním, slabší argumentací a nižší mírou kritického myšlení – zejména pokud člověk přepne do režimu „dej mi řešení“ místo „pomoz mi myslet“.

Důsledek pro evaluaci je nepříjemný: krátkodobá produktivita může růst, zatímco dlouhodobá kompetence může stagnovat nebo klesat – a to neuvidíte, pokud testujete jen okamžitý výstup.

6) Kreativita: posílení výkonu vs. homogenizace a „iluze originality“

U kreativity se snadno stane, že zaměníme „snadnost generování“ za „originalitu“. Meta-analýzy i empirické práce často nacházejí mírný pozitivní efekt na kreativitu výstupů – ale zároveň upozorňují na heterogenitu výsledků (záleží na úloze, režimu práce, evaluátorech).

Současně se objevuje druhá osa: diverzita. GM mají tendenci tlačit výstupy směrem k „pravděpodobnému“, což může v dlouhodobém měřítku vést ke stylové homogenizaci (všechno je trochu stejně uhlazené, stejné fráze, stejné struktury, stejně hnusné AI obrázky). Některé práce explicitně varují před „creativity illusion“: pocit, že jsme kreativnější, protože vzniká více textu, i když se diverzita ve skutečnosti zplošťuje.

7) Upskilling vs. deskilling: GM může učit – nebo brát kompetence

Největší praktická otázka zní: vede používání GM k růstu kompetence, nebo k její erozi?

Výzkum v edukaci často nachází zlepšení výkonu a užitečnosti, ale účinky na vyšší-řádové dovednosti a transfer nejsou automatické. Rozhoduje, zda GM funguje jako „lešení“ (scaffold) – vede otázkami, vysvětluje, nutí k volbám – nebo jako „automat na řešení“.

V pracovních úlohách se navíc mění rozdělení rolí: člověk méně generuje, více kontroluje a edituje. Jenže kontrola je dovednost. Pokud ji člověk nemá, vzniká iluze kompetence: „vypadá to správně, tak to asi je správně.“ Průzkumy mezi lidmi pracujícími s informacemi ukazují, že kritické myšlení se při používání GM často mění režimově – někdy posílí (když si uživatel uvědomuje rizika), někdy oslabí (když vyhraje rychlost a pohodlí).

8) Aktualizace GM jsou „distribution shift“ i pro člověka

Ještě jedna přehlížená věc: GM se mění. I drobná změna stylu, ochoty spekulovat, struktury odpovědí nebo guardrailů (ochranných mechanismů) je pro uživatele změnou terénní mapy. A protože uživatel si mezitím vybudoval metajazyk a rutiny, update může dočasně snížit výkon, zvýšit frustraci a rozbít zkratky.

Tohle je vidět i na produkčních datech prompt-adaptace: lidé mění styl a strategii promptování v reakci na upgrady. Jinými slovy: release management u GM je zároveň managementem uživatelského učení.

9) Frustrace není vedlejší efekt – je to parametr systému

V HCI je frustrace často chápána jako UX „pocit“. U [člověk↔GM] systému je to ale funkční proměnná: zvyšuje nebo snižuje ochotu ověřovat, experimentovat, iterovat. A tím přímo mění výsledný výkon.

Navíc existuje behaviorální rovina: tón komunikace, agresivita, zdvořilost – to nejsou jen kulturní detaily. Styl interakce může měnit chování uživatele (rychlost vs. pečlivost) i výsledky, a dlouhodobě vytvářet normy, které se přenesou i mimo GM prostředí.

Co z toho plyne: jak o tom mluvit správně

Pokud bych to měl říct jednou větou:
GM není „nástroj“, ale součást adaptivní smyčky. A tu smyčku nelze hodnotit bez časové osy.

Pro praxi z toho plynou tři střízlivé důsledky:

Hodnocení výkonu musí zahrnout člověka (jeho kompetenci, režim práce, míru ověřování, náklady interakce).
Design není jen „lepší GM“, ale pravidla smíšené iniciativy, zpětné vazby a podpory metajazyka.
Dlouhodobé efekty jsou součást problému: metajazyk, kognitivní outsourcing, (de)skilling, kreativní homogenizace, update-šok.

Tohle jsou oblasti, které mi v debatě o „výkonu GM“ scházejí – a které rozhodnou o tom, zda GM bude dlouhodobě posilující partner a trenér, nebo jen rychlá berlička s mnoha vedlejšími účinky. Buď budete mít dobrého spolupracovníka, nebo vás vyšoupne z vašeho místa.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Nejsme již androidi?

Článek

Postranní panel

Další články autora

Názory a úvahy Den, kdy se zlo zhluboka nadechlo

Názory a úvahy Putin a hranice zla

Psychologie a seberozvoj Zbabělost, která bolí: Jak populisté ničí psychiku našich dětí

Sdílejte s lidmi své příběhy

Další články autora

Názory a úvahy Den, kdy se zlo zhluboka nadechlo

Názory a úvahy Putin a hranice zla

Psychologie a seberozvoj Zbabělost, která bolí: Jak populisté ničí psychiku našich dětí

Víra a náboženství K Popeleční středě: Na peklo nevěřím

Psychologie a seberozvoj Stres z politických témat a co s ním?

Doporučované

Postranní panel