Článek
Tuzemská internetová společnost Seznam.cz se chystá vstoupit do světa generativní umělé inteligence a vyvíjí vlastní velký jazykový model. Tento model by měl disponovat stovkami miliard parametrů a má být specificky trénován na českých datech, což by mělo zaručit lepší výsledky pro české uživatele než současné modely jako Chat GPT-3.5.
Výhodou vlastního řešení je, že Seznam nebude muset sdílet uživatelská data s třetí stranou, což je klíčové pro ochranu soukromí uživatelů. Navíc si firma ponechá větší kontrolu nad vývojem a implementací technologie.
Využití umělé inteligence plánuje Seznam nasadit přímo do svého vyhledávače, kde AI bude schopna odpovídat na dotazy uživatelů, shrnovat výsledky a následně může nabídnout tradiční odkazy. Tento přístup je ambiciózní zejména kvůli výpočetní zátěži, kterou bude muset Seznam zvládat, a potenciálnímu dopadu na reklamní příjmy, jelikož uživatelé dostanou odpovědi přímo a nemusí klikat na odkazy.
Přestože je tato strategie výzvou pro infrastrukturu a finanční model společnosti, Seznam je připravený investovat do rozšíření kapacity serverů a optimalizace provozu. Aktuálně dokáže systém zvládnout stovky dotazů za sekundu, ale v praxi bude zapotřebí výkon zvýšit o dva až tři řády.
Na projektu AI pracuje v Seznamu přibližně 20 zaměstnanců a do vývoje bylo uvolněno několik desítek milionů korun. Firma je díky svým zdrojům a infrastruktuře schopna realizovat takový projekt interně, včetně budování datových center a serverového hardwaru. Seznam se zároveň snaží využívat a upravovat dostupné open source technologie, jako jsou modely Llama, Falcon nebo Mistral, a na jejich základě provádí fine tuning s ohledem na český jazyk.
Vstup Seznamu do oblasti AI a vývoj vlastního jazykového modelu je příkladem toho, jak lokální společnosti mohou přispět k inovacím v oblasti umělé inteligence, a přitom si zachovat nezávislost na mezinárodních technologických gigantech.