Článek
Majitelé mobilních telefonů s Androidem si mohli v minulých dnech všimnout, že se jejich telefon naučil pomocí umělé inteligence Gemini (dříve Bard) generovat obrázky. Na tuto funkci jsem čekal dlouho. Gemini je oproti svým konkurentům velmi pozadu. Mluvit se naučila také poměrně nedávno a to navíc dost zvláštně. Zvládne mluvit i česky, ale k tomu jí musíte nejdříve donutit. A když říkám donutit, tak to myslím doslova. Pro přepnutí do češtiny neexistuje jednoduché tlačítko. Gemini musíte v angličtině přemluvit k tomu, aby začala mluvit česky. Ani pak ale nemáte vyhráno. Oproti konkurenci od Open AI totiž Gemini většině českým slovům nerozumí, respektive si neumí převést mluvenou češtinu do pro ní srozumitelné formy. Odpovídá vám pak často na něco, na co jste se ani neptali.
Jinak tomu není ani u její nejnovější funkce, generování obrázků. Gemini sice rozumí tomu, co píšete a také to zobrazí, avšak její výtvory vás můžou zaskočit. Co tento nástroj zatím neumí, je generování lidí. Google však slibuje, že tuto funkci brzy zprovozní. Spokojit se tedy prozatím musíme s generováním zvířat, objektů a scenérií.
Chybí intuice
Můj první pokus o vygenerování obrázku se týkal zvířete. Požadoval jsem po Gemini vygenerovat kočku s psí hlavou. Zde jsem narazil na zásadní problém modelu Imagen 3, který Gemini používá. Při generování obrázků totiž není vůbec intuitivní. Nenapadne jí, že by psí hlava mohla s kočkou nějakým způsobem souviset, takže na první i druhý, jinak formulovaný, pokus vypadal výsledek dost divoce. Až na třetí a velmi detailní popis vygenerovala Gemini konečně slibný obrázek. Posuďte sami.
Druhý dotaz už dopadl o poznání hůře. Nedá se však říct, že by Gemini negenerovala to, co se jí řekne. Na můj dotaz „Vygeneruj auto s nohami“ jsem dostal opravdu auto s nohami. Chtěl jsem ale auto, které bude mít místo kol nohy, to už však Gemini nedokázala vygenerovat a výsledné obrázky jsou úsměvné paskvily.
Můj třetí povel byl k vygenerování chaloupky na kuří nožce (něco, jako ta z Mrazíka). Gemini z nějakého důvodu pochopila, že mluvím o jídle. Vygenerovala mi tedy perníkovou chaloupku se smaženým stehýnkem. Druhý pokus vyšel o stupeň lépe, ale stále jsem dostával zpět pečené stehno. Třetí a velice detailní popis už se dal přirovnat k chaloupce na kuří nožce. I když od představy, jsou jsem měl, je generovaný obrázek stále na míle daleko.
Máme se jistě na co těšit
Přestože jsou výtvory Gemini často úsměvné, na první verzi modelu pro generování obrázků se jedná o relativně slušné výsledky. Věřím tomu, Google brzy se svým Gemini dožene konkurenci. Má relativně dobře našlápnuto. Velkou výhodou navíc je, že je zcela zdarma a bez omezení na počet pokusů. Svůj obrázek si můžete vygenerovat zde.