Microsoft spojil desítky tisíc čipů do drahého superpočítače pro OpenAI

Článek

Jediný problém: Microsoft neměl nic podobného, co OpenAI potřeboval, a nebyl si úplně jistý, že něco tak velkého dokáže postavit ve své cloudové službě Azure, aniž by se to rozbilo.

OpenAI se snažila trénovat stále větší soubor programů umělé inteligence, tzv. modelů, které přijímaly stále větší objemy dat a učily se stále více parametrů, proměnných, které systém umělé inteligence zjistil tréninkem a přeškolováním. To znamenalo, že společnost OpenAI potřebovala přístup k výkonným cloudovým výpočetním službám po dlouhou dobu.

Aby se Microsoft s touto výzvou vypořádal, musel najít způsob, jak spojit dohromady desítky tisíc grafických čipů A100 společnosti Nvidia Corp., které jsou základem pro trénování modelů umělé inteligence, a změnit způsob rozmístění serverů ve stojanech, aby se zabránilo výpadkům napájení. Scott Guthrie, výkonný viceprezident Microsoftu, který má na starosti cloud a AI, nechtěl uvést konkrétní náklady na projekt, ale řekl, že „jsou pravděpodobně větší“ než několik set milionů dolarů.

„Vytvořili jsme systémovou architekturu, která může fungovat a být spolehlivá ve velmi velkém měřítku. Díky tomu bylo možné ChatGPT realizovat,“ řekla Nidhi Chappellová, generální manažerka infrastruktury Azure AI ve společnosti Microsoft. „To je jeden z modelů, který z toho vzešel. Bude existovat mnoho a mnoho dalších.“

Tato technologie umožnila společnosti OpenAI vydat ChatGPT, virálního chatbota, který během několika dní po vstupu na burzu v listopadu přilákal více než 1 milion uživatelů a nyní se zapojuje do obchodních modelů dalších společností, od těch, které provozuje miliardář a zakladatel hedgeového fondu Ken Griffin, až po službu rozvozu jídla Instacart Inc. Vzhledem k tomu, že generativní nástroje umělé inteligence, jako je ChatGPT, získávají zájem firem i spotřebitelů, bude na poskytovatele cloudových služeb, jako jsou Microsoft, Amazon.com Inc. a Google ze skupiny Alphabet Inc., vyvíjen větší tlak, aby zajistili, že jejich datová centra budou schopna poskytnout potřebný obrovský výpočetní výkon.

Společnost Microsoft nyní používá stejnou sadu zdrojů, kterou vytvořila pro OpenAI, k trénování a spouštění vlastních velkých modelů umělé inteligence, včetně nového vyhledávacího bota Bing, který byl představen minulý měsíc. Systém také prodává dalším zákazníkům. Softwarový gigant již pracuje na další generaci superpočítače umělé inteligence, která je součástí rozšířené dohody s OpenAI, v níž Microsoft přidal 10 miliard dolarů.

„Nevytvořili jsme je na zakázku – začalo to jako zakázková věc, ale vždy jsme ji vytvářeli tak, abychom ji zobecnili a aby kdokoli, kdo chce trénovat velký jazykový model, mohl využít stejná vylepšení,“ řekl Guthrie v rozhovoru. „To nám skutečně pomohlo stát se lepším cloudem pro umělou inteligenci v širokém slova smyslu.“

Trénování rozsáhlého modelu umělé inteligence vyžaduje velký soubor propojených grafických výpočetních jednotek na jednom místě, jako je superpočítač umělé inteligence, který sestavil Microsoft. Jakmile je model v provozu, odpovědi na všechny dotazy uživatelů – tzv. inference – vyžadují trochu jiné nastavení. Microsoft také nasazuje grafické čipy pro inferenci, ale tyto procesory – stovky tisíc z nich – jsou geograficky rozptýleny ve více než 60 regionech datových center společnosti. Nyní společnost přidává nejnovější grafický čip Nvidia pro pracovní zátěže s umělou inteligencí – H100 – a nejnovější verzi síťové technologie Infiniband společnosti Nvidia, aby bylo možné sdílet data ještě rychleji, uvedl Microsoft v pondělí v příspěvku na blogu.

Nový Bing je stále v předběžném náhledu a Microsoft postupně přidává další uživatele z čekací listiny. Guthrieho tým pořádá denně schůzky s asi dvěma desítkami zaměstnanců, kterým přezdívají „pit crew“ podle skupiny mechaniků, kteří uprostřed závodu ladí závodní vozy. Úkolem této skupiny je vymyslet, jak rychle zprovoznit větší množství výpočetní kapacity, a také řešit problémy, které se objeví.

„Je to do značné míry taková porada, kde se říká: ‚Hej, kdokoli má dobrý nápad, dejme ho dnes na stůl, prodiskutujme ho a zjistěme, jestli můžeme ušetřit pár minut. Můžeme ušetřit pár hodin? Několik dní?“ Guthrie řekl.

Cloudová služba závisí na tisících různých součástek a položek – jednotlivých serverů, potrubí, betonu do budov, různých kovů a minerálů – a zpoždění nebo nedostatek jedné, byť sebemenší součástky může vše zhatit. Nedávno se obsluha v jámě musela vypořádat s nedostatkem kabelových žlabů – zařízení podobných košům, která drží kabely vycházející ze strojů. Navrhli tedy nový kabelový žlab, který by si Microsoft mohl vyrobit sám nebo ho někde koupit. Pracovali také na způsobech, jak vtěsnat co nejvíce serverů do stávajících datových center po celém světě, aby nemuseli čekat na nové budovy, řekl Guthrie.

Když OpenAI nebo Microsoft trénuje velký model umělé inteligence, práce probíhá najednou. Je rozdělena mezi všechny grafické procesory a v určitých okamžicích spolu musí jednotky komunikovat, aby se podělily o vykonanou práci. Pro superpočítač AI musel Microsoft zajistit, aby síťové zařízení, které zajišťuje komunikaci mezi všemi čipy, zvládlo tuto zátěž, a musel vyvinout software, který co nejlépe využije GPU a síťové vybavení. Společnost nyní přišla se softwarem, který umožňuje trénovat modely s desítkami bilionů parametrů.

Protože se všechny stroje spouštějí najednou, musel Microsoft přemýšlet o tom, kde jsou umístěny a kde jsou umístěny zdroje napájení. Jinak by se vám stalo, že byste v datovém centru zapnuli mikrovlnnou troubu, toustovač a vysavač najednou, řekl Guthrie.

Společnost také musela zajistit, aby mohla všechny tyto stroje a čipy ochlazovat, a proto používá odpařování, venkovní vzduch v chladnějších klimatických podmínkách a špičkové chladiče v horkých klimatických podmínkách, uvedl Alistair Speirs, ředitel globální infrastruktury Azure.

Podle Guthrieho bude Microsoft nadále pracovat na přizpůsobených návrzích serverů a čipů a na způsobech optimalizace dodavatelského řetězce, aby dosáhl zvýšení rychlosti, efektivity a úspory nákladů.

„Model, který nyní ohromuje svět, je postaven na superpočítači, který jsme začali budovat před několika lety. Nové modely budou postaveny na novém superpočítači, na kterém nyní trénujeme a který je mnohem větší a umožní ještě větší sofistikovanost,“ řekl.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Microsoft spojil desítky tisíc čipů do drahého superpočítače pro OpenAI

Článek

Postranní panel

Další články autora

Finance Dow nebo S&P 500? Hádáte se o nesmyslu. Rozhoduje něco úplně jiného

Finance Tři tech akcie, o kterých jste neslyšeli. A přitom porážejí Nasdaq

Buffett 31 let nehnul prstem. A bere z té akcie stovky milionů

Sdílejte s lidmi své příběhy

Další články autora

Finance Dow nebo S&P 500? Hádáte se o nesmyslu. Rozhoduje něco úplně jiného

Finance Tři tech akcie, o kterých jste neslyšeli. A přitom porážejí Nasdaq

Buffett 31 let nehnul prstem. A bere z té akcie stovky milionů

Internet, technologie a elektronika OpenAI ztrácí dech. Zhroutí se AI bublina, nebo jen mění majitele?

JPMorgan: Ropa poletí na 150 dolarů. Peněženka i portfolio to ucítí

Doporučované

Postranní panel