A Meta tájékoztatása szerint a Llama 4 Scout és a Llama 4 Maverick az eddigi legfejlettebb modellek, és a multimodalitás terén kategóriájukban a legjobbnak számítanak.
MI-t tanító MI
A Meta hozzátette, hogy a Llama 4 Maverick és a Llama 4 Scout nyílt forráskódú szoftver lesz – írta a Reuters. A Meta egyben egy előzetest is adott a Llama 4 Behemoth-ról. Ezt a fejlesztő cég a világ egyik legokosabb LLM-jének és eddigi legerősebb modelljének nevezte. A Behemoth voltaképpen a Meta új MI-modelljeinek tanítására szolgál.
Az OpenAI ChatGPT sikere óta a nagy tech-cégek agresszívan öntik a pénzt az MI-infrastruktúrába. Ezzel a technológiai tájkép rendkívül gyorsan változik a világban, a gépi tanulásba (ML) való befektetések pedig soha nem látott lendületet kaptak.
Bizonytalan teljesítmény
A The Information pénteken még arról számolt be, hogy a Meta elhalasztotta legújabb LLM-verziójának bevezetését. A fejlesztés során ugyanis azt tapasztalták, hogy a Llama 4 nem felelt meg a Meta elvárásainak a technikai benchmarkok tekintetében. Elsősorban a következtetési és matematikai feladatokban tapasztaltak hiányosságokat.
A vállalatot az is aggasztotta, hogy a Llama 4 kevésbé volt képes emberi hangú beszélgetéseket folytatni, mint az OpenAI modelljei.
A Meta idén 65 milliárd dollárt tervez MI-infrastruktúrájának bővítésére költeni. Mindeközben a befektetők nyomást gyakorolnak a nagy technológiai cégekre, hogy mutassák fel befektetéseik megtérülését.
Még így is a második
A Meta szombaton kiadott egyik új MI-modellje, a Maverick mindenesetre a második helyen áll az LM Arena tesztjén.
Ebben a tesztben az (emberi) értékelők a modellek teljesítményét hasonlítják össze, az eredmények alapján pedig kiválasztják, melyiket részesítik előnyben. Mint arról a TechCrunch beszámolt, a Meta által az LM Arénába telepített Maverick verziója eltér a fejlesztők számára széles körben elérhetővé tett verziótól.
Amint arra több MI-kutató is rámutatott az X-en, a Meta jelezte: az LM Arénában lévő Maverick egy “kísérleti chat-verzió”.
A Llama hivatalos weboldalán található táblázat szerint a Meta LM Arena tesztelése a beszélgetésre optimalizált Llama 4 Maverickkel történt.
A becnhmark sem tévedhetetlen
Különböző okok miatt az LM Arena sosem volt a legmegbízhatóbb benchmarkja az MI-modellek teljesítményének. Az MI-vel foglalkozó vállalatok azonban általában nem szabták testre vagy kihagyták modelljeik finomhangolását, hogy jobb eredményt érjenek el az LM Arenában.
A problémát az jelenti, amikor egy adott modellt egy referenciaértékhez igazítanak. Ekkor még visszatartják, majd kiadják ugyanannak a modellnek a fazonírozott változatát. Ugyanakkor a fejlesztők számára nehézséget jelent megjósolni, hogy a modell pontosan miként fog teljesíteni a valós kontextusokban.
A benchmarkok valójában egy pillanatképet adnak egy modell erősségeiről és gyengeségeiről, miután feladatok hosszú sorát végeztették el velük.
Az X kutatói jelentős különbségeket figyeltek meg a nyilvánosan letölthető Maverick viselkedésében az LM Arena rendszerben tárolt modellhez képest.
(Kép: unsplash.com/Max Langelott)