Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Még a vezető MI-modellek is zavarba jöttek egy új teszten

Új, a vezető MI-modellek számára is komoly kihívást jelentő tesztet készített az Arc Prize Foundation. A teszttel a modellek általános intelligenciáját mérik.

Az Arc Prize Foundation nonprofit szervezetet  François Chollet világszerte ismert MI-kutató alapította. Az ARC-AGI-2 elnevezésű új tesztnek eddig a legtöbb modellt sikerült zavarba hozni.

Mikor kezd összeállni a kép? 

Az “érvelő” MI-modellek, mint például az OpenAI o1-pro vagy a DeepSeek R1 1-1,3 százalék közötti eredményt értek el az ARC-AGI-2-n az Arc Prize ranglistája szerint. Az erős, nem érvelő modellek, köztük a GPT-4.5, a Claude 3.7 Sonnet és a Gemini 2.0 Flash eredménye 1 százalék körüli volt.

Az ARC-AGI tesztek puzzle-szerű feladatokból állnak, ahol az MI-nak különböző színű négyzetek halmazából kell vizuális mintákat azonosítania. A feladatokkal az MI arra kényszerül, hogy alkalmazkodjon olyan új problémákhoz, amelyekkel korábban még nem találkozott.

Az Arc Prize több mint négyszáz emberrel végeztette el az ARC-AGI-2 tesztet, hogy megállapítsa az emberi alapszintet. A humán “panel” átlagos eredménye a teszten 60 százalékos volt – messze jobb, mint a mesterséges modellek eredményei – számolt be a kísérletről a TechCrunch.

Az X-en közzétett bejegyzésében Chollet azt állította, hogy az ARC-AGI-2 jobban méri az MI-modellek tényleges intelligenciáját, mint a teszt első verziója. Az alapítvány tesztjeinek célja annak értékelése, hogy egy MI-rendszer hatékonyan képes-e új készségeket elsajátítani azokon az adatokon kívül, amelyeken betanították.

Chollet szerint az ARC-AGI-1-től eltérően az új teszt megakadályozza, hogy az MI-modellek a “nyers erőre”, vagyis a nagy számítási teljesítményre támaszkodjanak a megoldásban. A kutató elismerte, hogy ez volt az ARC-AGI-1 egyik fő hibája.

A hatékonyság mint mérce

Az első teszt hibáinak kiküszöbölésére az ARC-AGI-2 egy új mérőszámot vezet be: a hatékonyságot. A modelleknek a memorizálásra való támaszkodás helyett a minták menet közbeni értelmezését is megköveteli.

“Az intelligenciát nem kizárólag a problémamegoldó képesség vagy a magas pontszámok elérése határozza meg” – írta blogbejegyzésében Greg Kamradt, az Arc Prize Foundation társalapítója.

Az a hatékonyság, amellyel ezeket a képességeket megszerzik és alkalmazzák, döntő, meghatározó összetevő. “Az alapvető kérdés, amit fel kell tenni, nem csak az, képes-e az MI megszerezni a képességet egy feladat megoldására. Hanem az is, hogy milyen hatékonysággal vagy költséggel tudja ezt megtenni” – fogalmazott Kamradt.

Az ARC-AGI-1 nagyjából öt évig veretlen volt, egészen 2024 decemberéig, amikor az OpenAI kiadta fejlett érvelési modelljét, az o3-at. Ez minden más MI-modellt felülmúlt, és az értékelésen az emberi teljesítményt is elérte. Azonban az o3 teljesítménynövekedése az ARC-AGI-1-gyel szemben komoly árat követelt.

Az OpenAI o3 modelljének o3 változata, amely az ARC-AGI-1-en az első rekorder volt és 75,7 százalékot ért el a teszten, az ARC-AGI-2-n mindössze négy százalékot produkált. Ez a modell egyébként feladatonként 200 dollár értékű számítási teljesítményt használt fel.

Az ARC-AGI-2 érkezését részben az is magyarázza, hogy a technológiai iparban sokan új, telítetlen viszonyítási pontokat követelnek az MI fejlődésének mérésére. 

Erről nyilatkozott nemrégiben a Hugging Face társalapítója, Thomas Wolf is a TechCrunchnak. Mondván, az MI-iparban nincs elegendő teszt a mesterséges általános intelligencia kulcsfontosságú tulajdonságainak, köztük a kreativitásnak a mérésére.

Az új benchmark bejelentésével egy időben az alapítvány meghirdette új, Arc Prize 2025 versenyét is. Ebben az lesz a fejlesztők feladata, hogy az ARC-AGI-2 teszten 85 százalékos eredményt érjenek el, miközben feladatonként mindössze 0,42 dollárt költhetnek.

(Kép: Dall-e)

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!