A Reuters beszámolója szerint a szervezők, a Center for AI Safety (CAIS) nevű nonprofit szervezet és a Scale AI nevű startup projektjének célja, hogy mérhető legyen, mikor érkezik el az MI “érett” korszaka.
A felhívást pár nappal azután tették közzé, hogy a ChatGPT készítője bemutatott egy új modellt, az OpenAI o1-et, amely lényegében lesöpörte az asztalról a legnépszerűbb érvelési benchmarkokat – mondta Dan Hendrycks, a CAIS ügyvezető igazgatója, aki egyben Elon Musk xAI startupjának tanácsadója is.
Hendrycks társszerzője volt két 2021-es publikációnak, amelyek elterjedt és jelenleg is alkalmazott, mesterséges intelligencia-rendszerekhez tervezett teszteket alapozták meg. Az egyik tesztben olyan témák egyetemi szintű ismereteiről kérdezték az MI-t, mint az amerikai történelem. A másikban pedig azt vizsgálták, hogy a modellek képesek-e versenyszintű matematikai következtetéseket levonni. Az egyetemi szintű tesztet többször töltötték le az online AI Hub Hugging Face-en, mint bármelyik ilyen adathalmazt.
Az említett dolgozatok idején az MI szinte véletlenszerű válaszokat adott a vizsgakérdésekre. Most viszont már simán lenyomják a teszteket.
Hendrycks ezt azzal a példával érzékeltette, hogy az Anthropic Claude-modelljei 2023-ban az egyetemi szintű teszten körülbelül 77 százalékos eredményt értek el. Egy évvel később már 89 százalékot. És éppen ezért van szükség új benchmarkok kidolgozására.
A Stanford Egyetem áprilisi MI Index jelentése szerint a mesterséges intelligencia gyengén teljesít olyan kevésbé használt teszteken, mint a tervalkotás vagy a vizuális mintafelismerő feladványok. Az OpenAI o1 például 21 százalék körüli eredményt ért el a mintafelismerő ARC-AGI teszt egyik változatán – közölték az ARC szervezői.
Egyes MI-kutatók szerint az ilyen eredmények azt mutatják, hogy a tervezés és az absztrakt gondolkodás az intelligencia jobb mércéje. Hendrycks szerint az ARC vizuális aspektusa miatt kevésbé alkalmas a nyelvi modellek értékelésére.
„Az emberiség utolsó vizsgája” elvont gondolkodást igényel
Szakértők szerint a közös benchmarkokból származó válaszok is bekerülhettek az MI-rendszerek képzésére használt adatokba.
Hendrycks szerint az „Emberiség utolsó vizsgája” egyes kérdései titkosak maradnak, hogy az MI-rendszerek válaszai ne a memorizálásból származzanak.
A vizsga legalább ezer olyan, a tömegek által feltett kérdést tartalmaz majd, amelyek megválaszolásához valódi szakértelemre van szükség. A beküldési határidő: 2024. november 1. A beküldött kérdéseket szakértői értékelésnek vetik alá, a győztes pályázatoknak pedig társszerzőséget és a Scale AI által felajánlott, akár 5000 dolláros díjat is kínálnak.
A kérdések beküldéséhez szükséges felület ezen a linken érhető el.
„Nagy szükségünk van a szakértői szintű modellek keményebb tesztjeire, hogy egyáltalán mérni tudjuk az MI gyors fejlődését” – mondta Alexandr Wang, a Scale vezérigazgatója.
Az új tesztek összeállításában bizonyos korlátozásokat is alkalmaznak a szervezők, így például kerülni kívánják a fegyverekkel kapcsolatos kérdéseket, mivel ezek túl veszélyesek lehetnek az AI tanulmányozásában.