Od pasivních chatbotů k aktivním AI agentům

Článek

Revoluce v oblasti AI rozhodně nezpomalila. Ba naopak. Oblastí lidského bádání a konání, ve kterých začíná hrát nějaká forma AI minimálně druhé housle, prudce přibývá. My se v tomto článku zaměříme na oblast, kterou dobře známe z mnoha sci-fi filmů popisujících soužití lidí a androidů. A ne, nebudeme se bavit o sci-fi, budeme se bavit o realitě současných dní, a to bez nádechu jakékoliv fantastičnosti.

Nejdříve je však třeba, jen v rychlosti, probrat pár pojmů, kolem kterých se budeme točit. Jedná se primárně o tři zkratky – LLM, GAI a o té třetí si povíme následně. (Čtenář, který je s těmito dvěma pojmy obeznámen, může tento odstavec v klidu přeskočit.) Známí chytří chatboti typu ChatGPT, Microsoft Copilot, Gemini od Google a další už asi nejsou pro nikoho úplnou neznámou. Všechny tyto programy jsou postaveny na takzvaných velkých jazykových modelech označovaných zkratkou LLM (large language model). Komunikace s chatovacími programy probíhá skrze přirozený jazyk, v textové podobě, a to – z hlediska chatovacích robotů – naprosto pasivně. Tyto programy zkrátka bez toho, aniž bychom po nic něco chtěli, tedy nenapsali jim nějaký textový příkaz, nic neudělají. A když už udělají, tak to vidíme jen my. (Jak s tím poté naložíme už je druhá věc). Úplně stejně jsou na tom programy pro generování obrázků. Midjourney, Dall-e, Copilot a další. Od chatovacích robotů se liší tím, že jejich výstupem není text, ale obrázek. Tyto dvě funkcionality se začínají sdružovat, a tak právě třeba zmiňovaný Microsoft Copilot nám umožňuje jak pokec, tak grafickou kreativu. Na scéně se začínají objevovat i programy, které na základě zpracování přirozeného jazyka generují video. Všechny tyto programy patří pod podmnožinu AI, která má zkratku GAI. Tedy umělá inteligence, jejímž výstupem jsou nějaké data – generativní umělá inteligence.

A teď k té třetí zkratce, o které se budeme bavit následovně. Na scénu nyní vstupují takzvané LAM modely. Než se pustíme do vysvětlení toho, co tato zkratka znamená, připomeňme si společného jmenovatele všech jmenovaných typů programů GAI z předchozího odstavce. Je jím – pasivita. Bez naší žádosti, v podobě textového vstupu, nic nedělají, a když už udělají, nemá to na okolní svět (bez naší případné další akce) žádný vliv. Tzv. LAM – tedy velké agentní modely (Large action models) charakterizuje naopak slovo agentní. Toto slovo je opakem pasivity a značí možnost něco vykonat z vlastního popudu, a to s výsledkem, který na rozdíl od generovaného textu, či obrázku určeného jen pro nás, ovlivňuje přímo psycho-sociokulturní realitu – tedy zasahuje přímo do našeho reálně žitého světa.

Struktura velkých akčních modelů je založena na kombinaci softwarových aplikací a lidských činností. Modely LAM mají s vysokou mírou přesnosti – tzn. nerozlišitelnosti od lidské akce – napodobovat složení dílčích kroků různých aplikací a lidských činností bez mezikroku, jakým je například vygenerovaný text. To je umožněno vývojem v oblasti tzv. neuro-symbolického programování.

Pojďme si ten kostrbatý popis demonstrovat na nějakém srozumitelném příkladě. Tak například já, pokud chci napsat tento článek, musím použít posloupnost několika kroků, z čehož některé jsou zcela lidské – bez potřeby jakékoliv technologie, přes hybridní – tedy kombinaci obého – až po části, které jsou přímo dílem GAI. Tím prvním lidským krokem je záměr, který v sobě obsahuje již také nějakou znalost – představu – o tom, co a za jakým účelem chci psát. Pak následují kroky, ve kterých hrají svou úlohu technologie. Práce s vyhledáváním zdrojů na internetu, psaní v textovém editoru atd. Podobu úvodního obrázku svěřím přímo GAI a vše jako celek, opět za pomocí technologií, publikuji zde. No a teď si představte, že by to vše – včetně záměru – učinil nějaký robot. A jsme u LAM.

LAM komunikují s reálným světem prostřednictvím integrace s externími systémy, jako jsou zařízení napojená na síť internet – IoT (internet věcí) a další. Připojením k těmto systémům mohou LAM provádět fyzické akce, ovládat zařízení, získávat data nebo manipulovat s informacemi. To umožňuje LAM mechanizovat kompletní procesy a inteligentně komunikovat se světem, komunikovat s lidmi, přizpůsobovat se měnícím se podmínkám, a dokonce spolupracovat s jinými LAM.

K pochopení šíře toho, co je zde psáno, je třeba si uvědomit skutečnost, že LAM jsou vyvíjeny přímo za účelem pochopení komplexity lidských záměrů a cílů, vyjádřených jazykem (v mluvené či psané formě), a následné transformace těchto záměrů do konkrétních dílčích kroků k jejich realizaci v reálném světě. Když si to představíme na příkladu výše, máme před sebou situaci z dobré sci-fi, ve které nějaký můj osobní robotický mentor postavený na LAM vyvodí z naší komunikace, že chci každý týden napsat jeden článek o vlivu vývoje AI na naše životy, a tak to prostě udělá komplet za mne. Včetně komunikace s redakcí Seznamu – tedy komunikace s reálnými lidmi.

Potenciál LAM může být využit v mnoha oblastech lidské činnosti. Ve zdravotnictví mohou ve spolupráci s diagnostickými metodami založenými na AI analýze dat z různých diagnostických přístrojů navrhovat léčebné strategie, mohou sledovat pohyby na burzách a investovat za nás, mohou ale také třeba odhalovat podvodné finanční pohyby, mohou způsobit revoluci v oblasti autonomních vozidel, mohou zcela změnit způsob práce s počítači atd. atd.

Toto vše samozřejmě bude mít své dopady na celou lidskou společnost a přináší to také mnoho otázek z oblasti etiky, práva atd. O tom snad v nějakém příštím příspěvku. Nyní už jen bonus na závěr. Ve zdrojích níže naleznete odkaz na jeden z prvních gadgetů založených přímo na LAM. Rabbit r1. Welcome to the future.

Zdroje

Rosemary J. Thomas, Phd, The rise of large action models - https://medium.com/version-1/the-rise-of-large-action-models-lams-how-ai-can-understand-and-execute-human-intentions-f59c8e78bc09

Rabbit r1: https://youtu.be/22wlLy7hKP4

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Od pasivních chatbotů k aktivním AI agentům

Článek

Postranní panel

Další články autora

Názory a úvahy 35 let po sametu sílí hlasy těch, kteří si se svobodou neví rady

Názory a úvahy Když dějiny napovídají. Aneb Příběh jednoho Němce

Názory a úvahy Jak stát pokrytecky nechává mladé na pospas tabákovému průmyslu

Sdílejte s lidmi své příběhy

Další články autora

Názory a úvahy 35 let po sametu sílí hlasy těch, kteří si se svobodou neví rady

Názory a úvahy Když dějiny napovídají. Aneb Příběh jednoho Němce

Názory a úvahy Jak stát pokrytecky nechává mladé na pospas tabákovému průmyslu

Internet a technologie Jak Apple záměrně, ale skrytě, ovlivňuje politickou náladu v EU. A proč

Názory a úvahy Trauma srpnových událostí roku 1968. Stále živé?

Doporučované

Postranní panel