Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Túl könnyűek az MI-tesztek: kérdéseket várnak az “emberiség utolsó vizsgájához”

MEGOSZTÁS

Technológiai szakértők egy csoportja globális felhívást tett közzé a hét elején: miután a mesterséges intelligencia rendszereknek a népszerű teljesítménytesztek meg sem kottyannak. Most a lehető legkeményebb kérdéseket keresik az „Emberiség utolsó vizsgája" elnevezésű projektben.

A Reuters beszámolója szerint a szervezők, a Center for AI Safety (CAIS) nevű nonprofit szervezet és a Scale AI nevű startup projektjének célja, hogy mérhető legyen, mikor érkezik el az MI “érett” korszaka.

A felhívást pár nappal azután tették közzé, hogy a ChatGPT készítője bemutatott egy új modellt, az OpenAI o1-et, amely lényegében lesöpörte az asztalról a legnépszerűbb érvelési benchmarkokat – mondta Dan Hendrycks, a CAIS ügyvezető igazgatója, aki egyben Elon Musk xAI startupjának tanácsadója is.

Hendrycks társszerzője volt két 2021-es publikációnak, amelyek elterjedt és jelenleg is alkalmazott, mesterséges intelligencia-rendszerekhez tervezett teszteket alapozták meg. Az egyik tesztben olyan témák egyetemi szintű ismereteiről kérdezték az MI-t, mint az amerikai történelem. A másikban pedig azt vizsgálták, hogy a modellek képesek-e versenyszintű matematikai következtetéseket levonni. Az egyetemi szintű tesztet többször töltötték le az online AI Hub Hugging Face-en, mint bármelyik ilyen adathalmazt.

Az említett dolgozatok idején az MI szinte véletlenszerű válaszokat adott a vizsgakérdésekre. Most viszont már simán lenyomják a teszteket. 

Hendrycks ezt azzal a példával érzékeltette, hogy az Anthropic Claude-modelljei 2023-ban az egyetemi szintű teszten körülbelül 77 százalékos eredményt értek el. Egy évvel később már 89 százalékot. És éppen ezért van szükség új benchmarkok kidolgozására.

A Stanford Egyetem áprilisi MI Index jelentése szerint a mesterséges intelligencia gyengén teljesít olyan kevésbé használt teszteken, mint a tervalkotás vagy a vizuális mintafelismerő feladványok. Az OpenAI o1 például 21 százalék körüli eredményt ért el a mintafelismerő ARC-AGI teszt egyik változatán – közölték az ARC szervezői.

Egyes MI-kutatók szerint az ilyen eredmények azt mutatják, hogy a tervezés és az absztrakt gondolkodás az intelligencia jobb mércéje. Hendrycks szerint az ARC vizuális aspektusa miatt kevésbé alkalmas a nyelvi modellek értékelésére. 

„Az emberiség utolsó vizsgája” elvont gondolkodást igényel

Szakértők szerint a közös benchmarkokból származó válaszok is bekerülhettek az MI-rendszerek képzésére használt adatokba. 

Hendrycks szerint az „Emberiség utolsó vizsgája” egyes kérdései titkosak maradnak, hogy az MI-rendszerek válaszai ne a memorizálásból származzanak.

A vizsga legalább ezer olyan, a tömegek által feltett kérdést tartalmaz majd, amelyek megválaszolásához valódi szakértelemre van szükség. A beküldési határidő: 2024. november 1. A beküldött kérdéseket szakértői értékelésnek vetik alá, a győztes pályázatoknak pedig társszerzőséget és a Scale AI által felajánlott, akár 5000 dolláros díjat is kínálnak.

A kérdések beküldéséhez szükséges felület ezen a linken érhető el.

„Nagy szükségünk van a szakértői szintű modellek keményebb tesztjeire, hogy egyáltalán mérni tudjuk az MI gyors fejlődését” – mondta Alexandr Wang, a Scale vezérigazgatója.

Az új tesztek összeállításában bizonyos korlátozásokat is alkalmaznak a szervezők, így például kerülni kívánják a fegyverekkel kapcsolatos kérdéseket, mivel ezek túl veszélyesek lehetnek az AI tanulmányozásában.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!