Letölthetővé vált a Meta ChatGPT-4 szintű nagy nyelvi modellje

Kiss Franciska

2024. júl 24.

MEGOSZTÁS

Meta mesterséges intelligencia LLM Llama 3.1 405B

A saját felhasználásra teljesen szabadon letölthető nagy nyelvi modellt a tegnapi napon engedte ki a Meta az open source jegyében.

Technológiai körökben nagy felhajtás övezi a Meta által kedden közzétett új mesterséges intelligencia nyelvi modellt, a Llama 3.1 405B-t. Az ok? Ez az első alkalom, hogy bárki ingyenesen letölthet egy GPT-4 kategóriájú nagy nyelvi modellt (LLM), és futtathatja azt a saját számítógépén.

„A nyílt forráskódú mesterséges intelligencia a jövő útja”

– kommentálta tömören Mark Zuckerberg a Meta vezérigazgatója, az LLM hozzáférhetőségének okát.

A Meta nagy nyelvi modellje azért nem fér rá minden laptopra, szükség van hozzá néhány bivalyerős hardverre.

„A Llama 3.1 405B az első olyan szabadon elérhető modell, amely az általános ismeretek, a matematikai készségek, az eszközök használata és a fordítás terén is vetekszik a már ismert mesterséges intelligencia modellekkel”

– mondta a Meta.

Többre szánták, mint egyszerű LLM

Mark Zuckerberg a 405B-t „az első nyílt forráskódú, határmodell mesterséges intelligenciának” nevezte. Ami már sokat sejtet arról is, hogy mire szánták.

A mesterséges intelligencia iparágában a „határmodell” kifejezés olyan MI-rendszerre utal, amelyet arra terveztek, hogy a jelenlegi képességek határait feszegesse. Ebben az esetben a Meta a 405B-t az iparág legjobb MI-modelljei közé pozícionálja, ahova például az OpenAI GPT-4o-ja, az Anthropic Claude 3.5 Sonnet-je, és a Google Gemini-je tartozik jelenleg.

A Meta által közzétett táblázat szerint a 405B nagyon közel kerül a GPT-4 Turbo, a GPT-4o és a Claude 3.5 Sonnet teljesítményéhez olyan benchmarkokban, mint az MMLU (egyetemi szintű tudás), a GSM8K (általános iskolai matematika) és a HumanEval (kódolás).

Letölthetővé vált a Meta ChatGPT 4 szintű nagy nyelvi modellje — *A Llama 3.1 405B benchmark eredményei versus más AI modellek eredményei*

A Meta a 405B modellt több mint 15 trillió, a világhálóról összegereblyézett (majd a Llama 2 által elemzett, szűrt és kommentált) adaton képezte, több mint 16 000 H100 GPU-t használva.

A név kötelez

Honnan ered a Meta LLM-jének a neve, a 405B? A „405B” 405 milliárd paramétert jelent. A több paraméter jobb „képességeket” jelent, például jobb kapcsolatlétrehozási képességet az egyes fogalmak közötti kontextuális kapcsolatok létrehozására.

A nagyobb paraméterekkel rendelkező modellek azonban azzal a kompromisszummal járnak, hogy több számítási teljesítményre van szükségük a futtatáshoz.

A Meta open source LLM-je kifejezetten provokatív az olyan „zárt” mesterséges intelligenciamodell-fejlesztőkkel szemben, mint az OpenAI és az Anthropic.

(Kép: mikezylber, PaBeArts/Deviantart)