Az Arc Prize Foundation nonprofit szervezetet François Chollet világszerte ismert MI-kutató alapította. Az ARC-AGI-2 elnevezésű új tesztnek eddig a legtöbb modellt sikerült zavarba hozni.
Mikor kezd összeállni a kép?
Az “érvelő” MI-modellek, mint például az OpenAI o1-pro vagy a DeepSeek R1 1-1,3 százalék közötti eredményt értek el az ARC-AGI-2-n az Arc Prize ranglistája szerint. Az erős, nem érvelő modellek, köztük a GPT-4.5, a Claude 3.7 Sonnet és a Gemini 2.0 Flash eredménye 1 százalék körüli volt.
Az ARC-AGI tesztek puzzle-szerű feladatokból állnak, ahol az MI-nak különböző színű négyzetek halmazából kell vizuális mintákat azonosítania. A feladatokkal az MI arra kényszerül, hogy alkalmazkodjon olyan új problémákhoz, amelyekkel korábban még nem találkozott.
Az Arc Prize több mint négyszáz emberrel végeztette el az ARC-AGI-2 tesztet, hogy megállapítsa az emberi alapszintet. A humán “panel” átlagos eredménye a teszten 60 százalékos volt – messze jobb, mint a mesterséges modellek eredményei – számolt be a kísérletről a TechCrunch.
Az X-en közzétett bejegyzésében Chollet azt állította, hogy az ARC-AGI-2 jobban méri az MI-modellek tényleges intelligenciáját, mint a teszt első verziója. Az alapítvány tesztjeinek célja annak értékelése, hogy egy MI-rendszer hatékonyan képes-e új készségeket elsajátítani azokon az adatokon kívül, amelyeken betanították.
Chollet szerint az ARC-AGI-1-től eltérően az új teszt megakadályozza, hogy az MI-modellek a “nyers erőre”, vagyis a nagy számítási teljesítményre támaszkodjanak a megoldásban. A kutató elismerte, hogy ez volt az ARC-AGI-1 egyik fő hibája.
A hatékonyság mint mérce
Az első teszt hibáinak kiküszöbölésére az ARC-AGI-2 egy új mérőszámot vezet be: a hatékonyságot. A modelleknek a memorizálásra való támaszkodás helyett a minták menet közbeni értelmezését is megköveteli.
“Az intelligenciát nem kizárólag a problémamegoldó képesség vagy a magas pontszámok elérése határozza meg” – írta blogbejegyzésében Greg Kamradt, az Arc Prize Foundation társalapítója.
Az a hatékonyság, amellyel ezeket a képességeket megszerzik és alkalmazzák, döntő, meghatározó összetevő. “Az alapvető kérdés, amit fel kell tenni, nem csak az, képes-e az MI megszerezni a képességet egy feladat megoldására. Hanem az is, hogy milyen hatékonysággal vagy költséggel tudja ezt megtenni” – fogalmazott Kamradt.
Az ARC-AGI-1 nagyjából öt évig veretlen volt, egészen 2024 decemberéig, amikor az OpenAI kiadta fejlett érvelési modelljét, az o3-at. Ez minden más MI-modellt felülmúlt, és az értékelésen az emberi teljesítményt is elérte. Azonban az o3 teljesítménynövekedése az ARC-AGI-1-gyel szemben komoly árat követelt.
Az OpenAI o3 modelljének o3 változata, amely az ARC-AGI-1-en az első rekorder volt és 75,7 százalékot ért el a teszten, az ARC-AGI-2-n mindössze négy százalékot produkált. Ez a modell egyébként feladatonként 200 dollár értékű számítási teljesítményt használt fel.
Az ARC-AGI-2 érkezését részben az is magyarázza, hogy a technológiai iparban sokan új, telítetlen viszonyítási pontokat követelnek az MI fejlődésének mérésére.
Erről nyilatkozott nemrégiben a Hugging Face társalapítója, Thomas Wolf is a TechCrunchnak. Mondván, az MI-iparban nincs elegendő teszt a mesterséges általános intelligencia kulcsfontosságú tulajdonságainak, köztük a kreativitásnak a mérésére.
Az új benchmark bejelentésével egy időben az alapítvány meghirdette új, Arc Prize 2025 versenyét is. Ebben az lesz a fejlesztők feladata, hogy az ARC-AGI-2 teszten 85 százalékos eredményt érjenek el, miközben feladatonként mindössze 0,42 dollárt költhetnek.
(Kép: Dall-e)