Článek
Nezávislá skupina vědkyň a vědců z českých i zahraničních výzkumných institucí odpovídá na vaše dotazy. Některé odpovědi pak sdílí i na sociálních sítích Facebook, Twitter, Instagram, Threads a zde na Médiu.
Dotaz
Můžou dnešní AGI (obecné umělé inteligence) projít Turingovým testem – osoba C má za úkol rozlišit, kdo (A nebo B) je člověk a kdo je stroj napodobující člověka? Dá se testovací otázky formulovat tak, aby ani nejschopnější AGI na trhu test nezvládla?
Minutová odpověď
- Úspěšné splnění Turingova testu není důkazem vědomí.
- Zda konkrétní odpověď vygenerovaná umělou inteligencí (AI) test splňuje, či ne, je na osobním uvážení rozhodující osoby, je proto těžké najít konkrétní otázku, kde AI selže.
- Nehledě na splnění Turingova testu, současné velké jazykové modely vědomí nemají.
- Vědomí není primárním cílem velkých jazykových modelů.
Odpověď
Turingův test byl navržen jako náhrada za otázku: „Může stroj myslet?“ [1]. Test probíhá formou imitační (napodobující) hry, které se účastní člověk a stroj v roli subjektů a další člověk v roli rozhodující osoby neboli arbitra. Cílem arbitra je rozeznat, který ze subjektů je stroj.
Subjekt-stroj má za úkol arbitra zmást, zatímco subjekt-člověk se snaží arbitrovi pomoci. Arbitr komunikuje se subjekty písemně formou otázek a odpovědí. Pokud arbitr nedokáže subjekt-člověka identifikovat, potom subjekt-stroj prošel Turingovým testem [2].
Může stroj myslet?
Turing imitační hru nezamýšlel jako test toho, zda má stroj vědomí. Jeho cílem bylo přijít s prakticky proveditelným a relativně přesně definovaným kritériem, které je v jistém smyslu blízko původní vágní otázce: „Může stroj myslet?“, kterou Turing považoval za „příliš bezvýznamnou, než aby zasloužila diskuzi“ [1, strana 8].
Definice a hledání podstaty vědomí je živá oblast současné filozofie, biologie i psychologie a od definitivní odpovědi jsme stále daleko [3]. Turingův test je součástí těchto debat, rozhodně ale není považován za vhodnou definici vědomí [4].
Pro mnoho praktických použití současných AI nástrojů je otázka jejich vědomí zcela irelevantní, protože by jim neposkytlo praktickou výhodu. Vědomí proto většinou není cílem výzkumnic a výzkumníků, kteří tyto nástroje vyvíjejí. Diskuze o vědomí jsou však o poznání důležitější v tématech bezpečnosti a etiky AI [4].
Jazykové modely vědomí nemají
Co se současných velkých jazykových modelů (např. ChatGPT, Bard či LLaMA) týče, v AI komunitě je naprostá shoda na tom, že vědomí nemají. Jedná se konec konců ve zkratce „jen“ o předpovídače dalšího slova v chatu, ačkoliv jsou schopny působivých výsledků [5, 6]. Proto se také nemůže stát, že by tyto modely „nevěděly, co odpovědět“ – nějakým způsobem zareagují vždy, jen je na uživateli posoudit, zda odpověď dává smysl a zda ji nějak dokáže využít.
Zda současné velké jazykové modely projdou Turingovým testem, je otázka, na kterou je těžší odpovědět. Turingův test je ze strany arbitra zcela subjektivní, nejedná se tak o jasné kritérium. Není proto možné najít otázku, která by stroj zaručeně a objektivně prozradila, zejména pokud by měla být univerzální.
Navíc jsou nejlepší velké jazykové modely komerčními produkty, které jsou záměrně programovány tak, aby bylo uživateli připomínáno, že mu odpovídá umělá inteligence. To aplikaci testu nutně ztěžuje.
Dalším aspektem, který je třeba ošetřit při aplikaci Turingova testu, je rychlost odpovídání – jazykové modely jsou schopny generovat text o poznání rychleji než člověk, zejména pokud přidáme komplikace typu odpovídání ve verších. Rychlost by tak jazykový model prozradila snadno. Přesto se v poslední době objevilo několik studií, které velké jazykové modely Turingovu testu podrobují.
Starší jazykový model GPT-3 Turingovým testem neprojde
Autorky a autoři ve zdrojích [6, 7] se shodují, že starší jazykový model GPT-3 Turingův test neprojde, protože delší texty, které AI generuje, nejsou vnitřně konzistentní. Novější produkty OpenAI jako ChatGPT a GPT-4 však využívají speciální architekturu neuronových sítí, tzv. transformer [8, 9], díky němuž jsou schopny vzít v potaz kontext v délce tisíců slov. Jsou tak v ošálení arbitra mnohem schopnější a výsledné texty jsou mnohem smysluplnější [10].
Práce [11, 12] studovaly, do jaké míry jsou pacienti schopni rozlišit odpovědi ChatGPT od odpovědí lékařů a lékařek. Ukázalo se, že toho jsou schopni velmi omezeně. Co se však výzkumu vědomí umělé inteligence týče, tyto výsledky mají malou relevanci.
Vznikla také studie [4], v níž autor tvrdí, že pokud arbitrem Turingova testu není člověk, ale ChatGPT, pak ChatGPT testem projde. To znamená, že tento jazykový model nedokáže rozlišit odpovědi, které sám vygeneroval, od odpovědí člověka. Autor z těchto výsledků vyvozuje závěry o možnosti existence několika typů vědomí a relevanci Turingova testu ve vztahu k nim.
Databáze selhání
Identifikace oblastí, kde současné velké jazykové modely selhávají, je novou aktivní oblastí výzkumu. Pro tyto účely vznikla rozsáhlá databáze těchto selhání [13]. Současné velké jazykové modely trpí halucinacemi, vymýšlejí si reference, selhávají v jednoduchých logických či matematických úlohách [6]. Tyto problémy jsou kontinuálně odstraňovány, zatím však těmto modelům nerozumíme dost na to, abychom přesně chápali jejich limity.
Za Zeptej se vědce odpovídal Jonáš
MMath. Jonáš Fuksa, Freie Universität Berlin
Odbornou revizi poskytl Mgr. Michal Havlena, Ph.D., Vuforia, PTC Vienna
Odpověď editovaly Ing. Kristýna Kantnerová, Dr. sc. ETH Zürich, University of Colorado Boulder, Geological Sciences & Institute of Arctic and Alpine Research
Mgr. Hien Rozsívalová, PhD, Fakulta matematiky a přírodních věd, Univerzita v Kolíně nad Rýnem
Zdroje
[1] https://redirect.cs.umbc.edu/courses/471/papers/turing.pdf (https://doi.org/10.1007/978-1-4020-6710-5_3)
[3] https://doi.org/10.1007/s00146-019-00880-4
[4] https://doi.org/10.48550/arXiv.2304.12898
[5] https://doi.org/10.3389/fpsyg.2019.01535
[6] https://doi.org/10.31234/osf.io/bx29f
[7] https://doi.org/10.1007/s13347-023-00621-y
[8] https://builtin.com/artificial-intelligence/transformer-neural-network
[9] https://doi.org/10.48550/arXiv.1706.03762
[10] https://doi.org/10.22148/001C.17212
[11] https://www.assemblyai.com/blog/how-chatgpt-actually-works/
[12] https://doi.org/10.1101/2023.01.23.23284735
[13] https://doi.org/10.1101/2023.02.13.23285745
[14] https://doi.org/10.48550/arXiv.2301.07597
Zeptej se vědce
Projekt Zeptej se vědce se snaží zprostředkovat kontakt mezi vědeckou a nevědeckou veřejností. Máte-li na vědce nějaký dotaz, zeptejte se nás na Facebooku, Twitteru nebo Instagramu. Líbí se vám naše příspěvky? Budeme rádi, když podpoříte naši činnost: darujme.cz/projekt/1209422