A Microsoft nagy sebességű hálózatokkal kezdte összekapcsolni távoli létesítményeit. Ezek akár több száz vagy ezer kilométerre is lehetnek egymástól.
A Fairwater-klaszterek
Az első csomópontja ennek a több adatközpontból álló klaszterhálózatnak októberben indult el. Ez a wisconsini Mount Pleasant városában működő adatközpont-komplexumot kapcsolja össze az atlantai létesítménnyel.
A redmondi óriás célja, hogy idővel az MI-feladatokat elosztva futtassa a különböző adatközpontok között. Hasonlóan ahhoz, ahogy ma a nagy teljesítményű számítástechnikai (HPC) és MI-munkafolyamatokat is több szerveren osztják szét.
“Ahhoz, hogy az MI képességei tovább fejlődjenek, egyre nagyobb infrastruktúrára van szükség a tanításához” – idézte a Microsoft Azure technológiai igazgatóját a The Register.
Ma már nem elég egyetlen adatközpont, sőt kettő sem. Több is kell belőlük – mondta Mark Russinovich.
Ezek azonban nem hétköznapi adatközpontok. Az új létesítmények egy új kategóriát képviselnek, amelyet a Microsoft “Fairwater” klasztereknek nevez.
Közvetlen és szinte nulla
Ezek két szintes adatközpontok, amelyek közvetlen folyadékhűtést használnak a chipeknél, és a vállalat szerint “szinte nulla vízfogyasztással” működnek.
A Microsoft hosszabb távon egy olyan összekapcsolt adatközpont-hálózatot képzel el, amely több százezer GPU-tfoglal magában. Különböző típusokat, az adott feladat és elérhetőség szerint optimalizálva.
Az atlantai létesítményben például Nvidia GB200 NVL72 rackrendszereket telepítenek. Ezek egyenként több mint 120 kilowattos teljesítményt bírnak, és 720 petaFLOPS FP8 számítási kapacitást kínálnak a tanítás során – köszönhetően 13 terabájt HBM3e memóriának.
Hálózatban masszívabb
Az adatközpontok összekapcsolásával a Microsoft nagyobb MI-modelleket képes betanítani. Emellett rugalmasabban választhatja meg, hol épít új létesítményeket – például ott, ahol olcsóbb a föld, hűvösebb az éghajlat. Sőt, ami talán a legfontosabb: bőséges az energiaellátás.
A cég nem közölte, milyen technológiát használ az Atlante és Mount Pleasant közötti, mintegy ezer kilométeres távolság áthidalására. De persze több lehetőség is szóba jöhet.
A Cisco például nemrég mutatta be az 8223-as routerét, amely 51,2 Tbps sávszélességet kínál. Ez akár ezer kilométerre lévő MI-adatközpontokat is összeköthet.
A Broadcom szintén hasonló célra fejlesztette Jericho 4 nevű hardverét.
Közben az Nvidia – amely az MI-robbanás révén mára a világ egyik legnagyobb hálózati berendezésgyártójává vált – bejelentette a Spectrum-XGS kapcsolóit. Ráadásul máris partnerre talált a Coreweave nevű, GPU-bérléssel foglalkozó cégben.
Ígéretes eredmények
A Microsoft egyelőre nem erősítette meg, melyik technológiát alkalmazza a Fairwater adatközpontjaiban. A cég szoros együttműködése az Nvidiával azonban arra utal, hogy valószínűleg a Spectrum-XGS megoldást választotta.
A Microsoft az egyike annak a néhány “hiperszolgáltatónak”, amely az Nvidia InfiniBand hálózati protokolljára épít, nem pedig Ethernetre vagy saját megoldásra – mint az Amazon EFA technológiája.
Bár a Microsoftnak számos technológiai opciója van az adatközpontok összekapcsolására, az MI-feladatok elosztása továbbra is komoly kutatási téma. Különösen, hogy minimalizálni kell a sávszélességi és késleltetési veszteségeket.
E téren azonban ígéretes eredmények születnek.
Az év elején például a Google DeepMind kutatói publikáltak egy tanulmányt, amely szerint a legtöbb ilyen kihívás kezelhető, ha a modelleket tömörítik a tanítás közben, és stratégiailag ütemezik az adatközpontok közti kommunikációt.