Hlavní obsah
Internet a technologie

Od Lammy 3 k rapující Moně Lise: aprílové eskapády umělé inteligence

Foto: Petr Šimeček

ICLR, ML Prague, Lamma 3, gpt2-chat, AlphaFold 3, nekonečný kontext, Katy Perry a rapující Mona Lisa.

Článek

Tenhle post píšu z Vídně, kde jsem na ICLR (International Conference on Learning Representations), která spolu s ICML a NeurIPS kraluje vědeckému bádání v oboru hlubokých neuronových sítí. Nikdy jsem na takto velké konferenci nebyl. Šest tisíc účastníků. Každý den stovky plakátů, před každým někdo chytřejší než vy, připravený uvést vás do tématu, na kterém byste mohl strávit dalších pár let. Jde z toho závrať!

Foto: Petr Šimeček

Roboti od Unitree jsou na ICLR populární

Podívat se na jednu z těchto „velkých konferencí“ není snadné, už jenom z finančních důvodů. Více lidová a byznysově orientovaná je dubnová Machine Learning Prague. Tady potkáte (nejen) z českých firem, jež se o něco pokoušejí ve strojovém učení, prakticky každého. Já tu s kolegy vedl workshop o otevřených modelech a malých jazycích jako čeština nebo slovenština. Pokud se i u vás ve ve firmě pokoušíte o něco s velkými jazykovými modely, a zároveň se vašim klientům nebo poskytovatelům dat nelíbí, že posíláte data přes oceán na servery OpenAI, doporučuju tématu věnovat pozornost. Loni byly dobré přednášky i na českém nebo evropském PyCoNu.

Lamma 3 70B

Už s příchodem ChatGPT na konci roku 2022 se lidé začali ptát, proč musí odesílat svá data na vzdálené servery společnosti OpenAI. Kdy mi něco takhle chytrého poběží na notebooku? Kdy budu moci tohle dělat s otevřeným modelem, nad kterým budu mít plnou kontrolu? Čekali jsme dlouho, otevřené modely buďto kvalitou ChatGPT3.5 nedosahovaly nebo byly obří, a tedy pomalé, pro jednotlivce nepoužitelné.

Od dubna na tyto otázky existuje snadná odpověď - Llama3 70B (70B označuje počet parametrů, pozor, anglický billion je česká miliarda). Stojí za ní Meta (Facebook), ale je poskytována pod poměrně svobodnou licencí. S novějším laptopem od Applu (M2 chip, 16 GB paměť) vám v ollama klientovi poběží GGUF svižně. My, kdo zatím tuto možnost nemáme, si můžeme Llamu otestovat třeba na stránkách labs.perplexity.ai.

GPT2-chat a další modely

Pokud stále používáte neplacené ChatGPT, podívejte se po alternativách! Nejen Llama3 70B, ale i mnohé chatové alternativy nabízí lepší výsledky. Copilot od Microsoftu, Gemini od Googlu, Command-R-Plus v Cohere Chat, LeChat od Mistralu, HuggingFace Chat, nebo už zmíněný chat na stránkách Perplexity, všechny zadarmo, přímo ve vašem prohlížeči a s kvalitnějšími výstupy.

Válka o nejlepší model pokračovala i v dubnu. Na poli otevřených modelů se objevil Mixtral 8×22B, Cohere-R-Command-PlusSnowflake Arctic. Na jednu stranu se jedná o obdivuhodné úsilí a zmíněným společnostem patří dík za to, že natrénované modely dávají k dispozici, na druhou stranu jsou tyto modely pro běžného uživatele příliš velké. Na poli malinkatých modelů zabodoval Microsoft s Phi 3, který ale bohužel funguje velmi špatně pro jiné jazyky než angličtinu. U modelů na generování kódu přišlo IBM s Granite Code Models. V komerčním sektoru se—přesně jak jsem minule předpovídal—OpenAI postarala o to, aby s novou verzí GPT4-turbo opět převzala vedení, byť rozdíl od Claude3 Opus není velký a záleží, na konkrétním použití.

Největší senzaci vzbudil nenápadný model „gpt2-chat“ z LMSYS Arény. Současně s ním se po Twitteru rozeběhly zvěsti o jeho schopnostech, jak jeden prompt stačí, abyste napsali počítačovou hru aj. Oficiálně se neví, kdo za modelem stojí, ale klepy a chybové hlášky ukazují k OpenAI. Název GPT2 odkazuje k starší architektuře OpenAI z roku 2019, může tedy jít například o vyšší počet parametrů nebo šikovně sestavenou tréninkovou sadu, která dosáhne kvalit aktuálně nejlepších modelů a má nám naznačit - uvažte, co se stane, až tohle provedeme s GPT4.

V tuto chvíli jediný způsob, jak si zkusit s gpt2-chat popovídat, je položit dotaz na LMSYS Aréně (side-by-side). Nemůžete si vybrat, ba předem ani nevíte, které dva modely vám odpoví. Teprve až označíte, jaká odpověď byla lepší, dozvíte se, kdo si s vámi povídal a pokud to byl gpt2-chat, který tu aktuálně vystupuje pod dvěma jmény „im-a-good-gpt2-chatbot“ a „im-also-a-good-gpt2-chatbot“, můžete položit návaznou otázku.

Update 13.5.: Skutečně se jednalo o model OpenAI, nově představený jako GPT4-o.

ChatGPT mění naši řeč

Jak si na Twitteru povšimnul Jeremy Nguyen, když vezmete PubMed, obrovskou databázi biomedicínských textů, existují slova, jejichž frekvence s rokem 2023, a tedy příchodem ChatGPT, skokově vzrostla. Jedno takové slovo je „delve“. Na vině je ChatGPT, která „delve“ nadužívá, a spousta vědců si s ním při psaní textů pomáhá (včetně mne).

Ale proč „delve“? To se úplně neví. Podezření padá na tendenci velkých společností najímat si kontraktory v částech světa s levnější pracovní silou. V Nigérii je slovo „delve“ poměrně běžně užíváno v úředních dokumentech.

Pokud budou rodilí mluvčí číst tyto texty, je možné, že se časem stane „delve“ ujme i v britské a americké angličtině?

Katy Perry na Met Gala, Mona Lisa rapping

Dvě události z pop-kultury, které by vám neměly uniknout:

  1. Rapující Mona Lisa od Microsoftu: za zdánlivou banalitou se skrývá další pokrok v oblasti modelů, které dokáží vytvořit deep-fake video, na základě jediné fotky (v tomto případě VASA-1, podobný je i EMO od Alibaby).

2. Falešná fotka zpěvačky Katy Perry na Met Gala v New Yorku: fotka byla natolik zdařilá, že o účasti své dcery na této dobročinné akci přesvědčila i zpěvaččinu matku.

Z vědy

O poprask se postaral Google DeepMind s novou verzí svého modelu na predikci 3d struktur proteinů AlphaFold3. Proč je to velká věc? Na Twitteru to podrobně rozebírá Karel Berka. DeepMind v proteinovém inženýrsví způsobil revoluci. Už první verze se stala nejlepší predikčním modelem. Skutečná změna ale přišla s AlphaFold2, která se přesností predikce dostala na úroveň mnoha měsíců, někdy let, trvajících krystalizačních experimentů. Zatímco donedávna jsme 3d strukturu znali jen u malinkatého zlomku proteinů, najednou máme predikci prakticky pro všechny. A znát strukturu proteinu znamená rozumět jeho funkcím a vlastnostem. Mít možnost navrhnout malé molekuly, které se budou vázat přesně tam, kam potřebujete. Nobelova cena autorům tak není otázka „jestli“, ale spíše „kdy“. Ani naše bádání o zauzlovaných proteinech, prezentované na ICLR by bez AlphaFoldu nebylo možné.

Foto: Petr Šimeček

Panelová diskuze na ICLR workshopu „Generative and Experimental Perspectives for Biomolecular Design“

Stejně jako o AlphaFoldAlphaFold2, i o AlphaFold3 vyšel článek ve vysoce přestižním vědeckém časopise Nature. Ale… součástí článku nejsou váhy modelu, ani počítačový kód. To je přitom proti pravidlům časopisu a ví se, že minimálně jeden z recenzentů na to upozornil. Na panelové diskuzi se o tom vedla ostrá diskuze, z které jsem si odnesl: a) doba úplné otevřenosti zdá se končí, Google chce vydělat, resp. chce vydělat víc b) jak správně upozornil jeden z panelistů, Google mohl být tajnůstkářský mnohem víc, zveřejnit jen tzv. white paper a vědecký článek vůbec nepsat. c) díky podrobnému popisu architektury je pravděpodobné, že vědecká komunita v dohledné době výsledek replikuje (tak jak se to už dříve stalo s OpenFoldem). Dokonce se tak již děje, předběžný odhad otevřené alternativy k AlphaFold3 je konec roku.

Z uplně jiného soudku. Otevřené NLP modely prodlužují kontext, tedy délku textu, co jsou schopny zaráz vstřebat. Výzkum v této oblasti v posledních dvou měsících výrazně pokročil, viz např. článek „Efficient Infinite Context Transformers with Infini-attention“. Jako důsledek tu máme modely jako Gemma-2B-10M nebo Llama-3-8B-Instruct-Gradient-1048k. Zatímco dříve se jako měřítko délky kontextu uváděly knihy o Harry Potterovi, tento model zvládne na jeden průchod přečíst celou vaši knihovnu (150 sérií Harry Potterů), a pak zodpovědět návazné otázky.

Zkuste si

Na trhu je nyní řada aplikací, které vám umožní nahrát obchodní schůzku a vytvořit shrnutí, dokonce i v přehrávači si můžete pustit skvělý audiopen.ai.

Nebo se místo aplikace můžete přičinit sami. Na telefonu spusťte záznam zvuku (na Androidu aplikace Recorder), soubor pak pomocí webového prohlížeče převeďte ze zvuku na text pomocí služby Deepgram PlayGround (u hodinového záznamu to trvá cca minutu). Přepis nebude dobrý, pro človeka často na hranici čitelnosti. Ale když ho vezmete a CtrlC-CtrlV zkopírujete do svého oblíbeného LLM, které poprosíte o shrnutí, bude výsledek téměř dokonalý (alespoň dle mých zkušeností). Takováto shrnutí budeme do pár let považovat za samozřejmost, ostatně Microsoft Teams i Google Meet už přepisy virtuálních schůzek nabízejí.

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít psát. Ty nejlepší články se mohou zobrazit i na hlavní stránce Seznam.cz

Doporučované

Načítám