Új modelljét egy Hugging Face-posztban jelentette be a DeepSeek. A kínai MI-fejlesztő egy kapcsolódó akadémiai tanulmányt is közzétett a GitHubon.
Nagy munka, kis terhelés
Az új modell legfontosabb jellemzője a DeepSeek Sparse Attention. A “megosztott figyelem” nevet viselő, rendkívül összetett rendszer egy úgynevezett “lightning indexer” (villámindexelő) modult használ.
Ennek célja, hogy előnyben részesít bizonyos részleteket a kontextusablakból. Ezt követően egy külön, finomhangolt tokenválasztó rendszer emeli ki az adott részletekből azokat a konkrét tokeneket, amelyeket a modul “korlátozott figyelem” ablakába tölt be.
A két megoldás együttes alkalmazásával a Sparse Attention modellek képesek hosszú kontextusrészeken dolgozni úgy, hogy eközben a szerverterhelés viszonylag alacsony marad.
Jöhetnek a független tesztek
A hosszú kontextusú műveleteknél a rendszer jelentős előnyöket biztosíthat – írja a TechCrunch.
A DeepSeek előzetes tesztjei szerint egy egyszerű API-meghívás költsége ilyen helyzetekben akár a felére is csökkenhet.
A pontosabb értékeléshez további vizsgálatok szükségesek. Mivel azonban a modell nyílt, és már elérhető a Hugging Face-en, várhatóan hamarosan független teszteken bizonyíthatják a tanulmány állításait.
A DeepSeek új modellje egy a közelmúltbeli áttörések sorában, amelyek a következtetési költségek problémáját célozzák meg. Vagyis azt, hogy mennyibe kerül egy előre betanított MI-modell működtetése, szemben a betanítás költségével.
A kínai cég kutatói azt keresték, hogyan lehetne a transzformer-architektúrát alapjaiban hatékonyabbá tenni. Álláspontjuk szerint még bőven van tér a fejlődésre.
A forradalom elmaradt, de a költségek csökkenthetők
A DeepSeek különleges szereplője az MI-robbanásnak – mutat rá beszámolójában a TechCrunch. Főként azok szemében, akik az MI-kutatást az USA és Kína közti nemzeti versengésként látják.
A cég már az év elején nagy visszhangot keltett R1 modelljével, amelyet főként megerősítéses tanulással, az amerikai versenytársakéhoz képest jóval alacsonyabb költségen képeztek ki.
A modell azonban mégsem indított el olyan mértékű forradalmat az MI-képzésében, mint ahogy eleinte sokan várták.
Az új “megosztott figyelem” metódus valószínűleg nem lesz akkora durranás, mint az R1. Ugyanakkor még így is szolgálhat néhány hasznos trükkel az amerikai szolgáltatók számára ahhoz, hogy csökkentsék a számítási költségeket.