Technológiai körökben nagy felhajtás övezi a Meta által kedden közzétett új mesterséges intelligencia nyelvi modellt, a Llama 3.1 405B-t. Az ok? Ez az első alkalom, hogy bárki ingyenesen letölthet egy GPT-4 kategóriájú nagy nyelvi modellt (LLM), és futtathatja azt a saját számítógépén.
„A nyílt forráskódú mesterséges intelligencia a jövő útja”
– kommentálta tömören Mark Zuckerberg a Meta vezérigazgatója, az LLM hozzáférhetőségének okát.
A Meta nagy nyelvi modellje azért nem fér rá minden laptopra, szükség van hozzá néhány bivalyerős hardverre.
„A Llama 3.1 405B az első olyan szabadon elérhető modell, amely az általános ismeretek, a matematikai készségek, az eszközök használata és a fordítás terén is vetekszik a már ismert mesterséges intelligencia modellekkel”
Többre szánták, mint egyszerű LLM
Mark Zuckerberg a 405B-t „az első nyílt forráskódú, határmodell mesterséges intelligenciának” nevezte. Ami már sokat sejtet arról is, hogy mire szánták.
A mesterséges intelligencia iparágában a „határmodell” kifejezés olyan MI-rendszerre utal, amelyet arra terveztek, hogy a jelenlegi képességek határait feszegesse. Ebben az esetben a Meta a 405B-t az iparág legjobb MI-modelljei közé pozícionálja, ahova például az OpenAI GPT-4o-ja, az Anthropic Claude 3.5 Sonnet-je, és a Google Gemini-je tartozik jelenleg.
A Meta által közzétett táblázat szerint a 405B nagyon közel kerül a GPT-4 Turbo, a GPT-4o és a Claude 3.5 Sonnet teljesítményéhez olyan benchmarkokban, mint az MMLU (egyetemi szintű tudás), a GSM8K (általános iskolai matematika) és a HumanEval (kódolás).

A Meta a 405B modellt több mint 15 trillió, a világhálóról összegereblyézett (majd a Llama 2 által elemzett, szűrt és kommentált) adaton képezte, több mint 16 000 H100 GPU-t használva.
A név kötelez
Honnan ered a Meta LLM-jének a neve, a 405B? A „405B” 405 milliárd paramétert jelent. A több paraméter jobb „képességeket” jelent, például jobb kapcsolatlétrehozási képességet az egyes fogalmak közötti kontextuális kapcsolatok létrehozására.
A nagyobb paraméterekkel rendelkező modellek azonban azzal a kompromisszummal járnak, hogy több számítási teljesítményre van szükségük a futtatáshoz.
A Meta open source LLM-je kifejezetten provokatív az olyan „zárt” mesterséges intelligenciamodell-fejlesztőkkel szemben, mint az OpenAI és az Anthropic.
(Kép: mikezylber, PaBeArts/Deviantart)