A generatív mesterségesintelligencia-modellek teljesítménye gyorsan javul. Folyamatos finomhangolásukkal egyre jobban megközelítik az emberi teljesítményt, és mint több teszt bizonyítja, például az oktatásban egyik-másik ugyanolyan jól megoldja a feladatokat, mint a húsvér diákok.
A nagy nyelvmodelleket (large language models, LLM) változatos teszteknek vetik alá, majd az eredmények alapján rangsorolják őket. Nyílt modellekkel könnyebb a dolguk, fejlődésük felgyorsulásával viszont magát a rangsorolást, kritériumait és menetét is át kell alakítani.
Kínai és amerikai nyelvi modellek vezetik az új listát
Erre tesz kísérletet a legismertebb tesztelő, a New Yorki székhelyű amerikai-francia MI-vállalat, a Hugging Face. Az Open LLM Leaderboard (Nyílt LLM Ranglista) ráncfelvarrásával, a híres startup átrendezi a legokosabb versenyzők értékelését. 2023-ban kétmilliónál több egyedi felhasználó böngészte a listát, míg havonta a Hugging Face közösség 300 ezernél több tagja használja és dolgozik, együttműködik rajta. A fejlesztők megbíznak az értékelésekben, a lista alapján döntik el, milyen modellel dolgozzanak, hol tart a sajátjuk.
A felülvizsgált ranglista új mércéken (benchmarks) alapul, eleve úgy alakították ki, hogy nagyobb legyen a kihívás, nehezebbek legyenek a játékfeltételek.
Modellek kiértékelése (a b előtt a paraméter-milliárdok száma)
Az új lista nagyon másként fest, mint a korábbi változat. Egyes nyelvi modellek előrébb, mások hátrébb kerültek, volt olyan, amelyik helyezése ötvenkilenc egységgel változott. A mostani kritériumok alapján végzett első megmérettetés során a kínai Qwen2 áll az élen. A modell hetvenkétmilliárd paraméteres, finomhangolt utasításokkal működő változata százból 43,02 átlagpontot gyűjtött össze, megelőzve az egykori Facebook, ma Meta világhírű Llama-3-ját. Utóbbi hetvenmilliárd paraméteres változata közel hét átlagponttal maradt le mögötte; 36.67-et ért el.
Az osztályozáshoz sok szempontot vesznek figyelembe, például, hogy mennyire kompaktok, mennyire sokrétűek stb. a modellek. A tavaly útjára indított és még mindig működő korábbi változat hat népszerű benchmark összesített pontszáma alapján rangsorolja a nagy nyelvmodelleket. Az utóbbi hónapokban a legjobbak azonban megközelítették az emberi szintű pontszámokat, és változtatni kellett a kritériumokon. A magas pontszámok részben a technikai fejlesztésnek köszönhetők, de részben annak is, hogy a gyakoroltatáshoz használt adatkészletek példái beszivárogtak a tesztekbe, és vice versa.
Vizsgázzunk!
Az átdolgozott ranglista felváltja a régi teszteket, és kijavítja a korábbi pontatlanságokat, hibákat.
A többféle válaszlehetőségű kérdések új változatában (MMLU-Pro) négy helyett immár tíz válasz közül saccolhatják meg a legjobbat a modellek. A szerkesztők eltüntették a túl könnyűeket, sokat jóval nehezebbé alakítottak, és több a félrevezető válaszlehetőség is. Az eredmények megfelelnek az emberi preferenciáknak (amelyeket az LMSYS Chatbot Aréna definiált).
Hogyan közelítik a modellek az emberi intelligenciát?
A GPQA PhD-szintű biológiai, fizikai és kémiai kérdéseket tartalmaz. Eleve azért találták ki, hogy a hozzá nem értők számára nagyon nehéz legyen, és még az online forrásokhoz való hozzáférés, a webes keresés lehetőségével élve se érjenek el jó eredményeket.
Az MuSR hosszú, összetett szöveges feladatok megválaszolására kéri a modelleket. Komplex, többlépcsős következtetésre van szükségük hozzá. A jó teljesítményhez részben nyomozónak is kell lenniük, például gyilkossági rejtélyt kell megoldaniuk, feladatok végrehajtásához karaktereket kell kijelölniük, meg kell határozniuk tárgyak helyét a narratívában.
A MATH v5 többlépéses matematikai problémák abszolválásáról szól. Az adatsor öt nehézségi szintet fed le, a benchmark viszont csak a legnehezebbre vonatkozik.
Az IFEval speciális instrukciókat tartalmazó promptok megválaszolására kötelezi a mesterségesintelligencia-modelleket. Például arra utasítja őket, hogy ne használjanak nagybetűket, a válasznak négy részből kell állnia stb.
Valahogy így képzeljük el a jövő MI-jét, és biztos, hogy nem ilyen lesz
A BIG-Bench Hard huszonhárom változatos és bonyolult feladatot fed le: logikai kifejezések megértését, szarkazmusok felderítését szövegekben, grafikus vektorok alapján meg kell határozniuk alakzatokat, és így tovább. Nagyon izgalmas problémákkal kell boldogulniuk. A pontszámok ugyanúgy, mint az MMLU-Pro esetében, ezúttal is korrelálnak az LMSYS Chatbot Arénával.)
További tesztlehetőségek
Ha csak a gyakorlópéldák tesztekbe szivárgását nézzük, már az óriási kihívás a modell teljesítményének értékeléséhez. Míg a Hugging Face nyílt benchmarkokra hagyatkozik, addig más csoportok a tesztkérdésekhez való hozzáférés korlátozásával vagy folyamatos megváltoztatásukkal igyekeznek kezelni a problémát.
A független modelltesztelő Vals:AI például iparág-specifikus pénzügyi és jogi teszteket dolgozott ki. A Scale AI adattanácsadó cég ranglistája természetes nyelvekre, matematikára és kódolásra írt, szabadalmaztatott teszteken értékeli a modelleket.
Képek: Hugging Face, Health Policy Watch, Wikimedia Commons, Rawpixel