A nagy nyelvi modellek utánozzák az emberi beszélgetést, de a tudósok nem értenek egyet az érvelési képességükkel kapcsolatban. Most az AI értékelésének új módszereiért folyik a küzdelem a kutatói világban.
A világ legjobb mesterséges intelligencia (AI) rendszerei képesek átmenni nehéz vizsgákon, meggyőzően esszéket írni és olyan folyékonyan csevegni, hogy sokak szerint a teljesítményük megkülönböztethetetlen az emberekétől. No, de mi az, amit nem tudnak? Egyszerű vizuális, logikai rejtvényeket megoldani.
Egy képernyőn elhelyezett, élénk színű blokkok sorozatából álló tesztben a legtöbb ember felismeri az összekötő mintákat. A GPT-4, a ChatGPT chatbot és a Bing keresőmotor mögött álló mesterséges intelligencia rendszer legfejlettebb változata azonban a rejtvények alig egyharmadát találja el helyesen a minták egyik kategóriájában, egy másikban pedig mindössze 3 százalékát – derül ki a kutatók idén májusban közzétett jelentéséből.
Kihívások az értékelésben
A logikai rejtvények mögött álló csapat célja, hogy jobb viszonyítási alapot biztosítson a mesterséges intelligencia rendszerek képességeinek teszteléséhez – és hogy segítsen megoldani a GPT-4-hez hasonló nagy nyelvi modellekkel (LLM) kapcsolatos rejtélyt. Egyféleképpen tesztelve, lazán hozzák azokat a feladatokat, amelyeket egykor a gépi intelligencia mérföldkőnek számító teljesítményeinek tekintettek. Másrészt viszont kevésbé tűnnek lenyűgözőnek, nyilvánvaló vakfoltokat mutatnak és képtelenek az absztrakt gondolkodásra.
„A mesterséges intelligencia területén az emberek azzal küzdenek, hogyan értékeljék ezeket a rendszereket” – mondja Melanie Mitchell, az új-mexikói Santa Fe Intézet informatikusa, akinek csapata, a fent említett a logikai feladványokat készítette (lásd: „Egy absztrakt gondolkodást vizsgáló teszt, amely legyőzi a gépeket”).
Az elmúlt két-három évben az LLM-ek a korábbi mesterséges intelligencia-rendszereket kiütötték a nyeregből. Egyszerűen úgy működnek, hogy egy bemeneti szövegre valószínűtlen következő szavakat generálnak – a szavak közötti statisztikai összefüggések alapján, amelyek több milliárd online mondatban találhatóak – amelyekre betanították őket. Az LLM-ekre épülő chatbotok esetében van egy extra elem: a felhasználók, tehát az emberek széleskörű visszajelzéseket adtak a botok reakcióinak hangolásához.
Meglepő, hogy milyen széleskörű képességekkel rendelkezik ez az automatikus kitöltéshez hasonló algoritmus, amelyet az emberi nyelv hatalmas tárházán képeztek ki. Más mesterséges intelligencia-rendszerek bármelyik feladatban legyőzhetik az LLM-eket, de azokat egy adott problémára vonatkozó adatokon kell betanítani, és nem tudnak egyik feladatról a másikra általánosítani.
Mi történik az LLM-motorházteteje alatt?
Nagyjából két kutatói tábor ellentétes nézeteket vall arról, hogy mi zajlik az LLM-ek motorházteteje alatt, mondja Tomer Ullman, a massachusettsi Cambridge-i Harvard Egyetem kognitív tudósa. Egyesek az algoritmusok eredményeit az érvelés vagy a megértés felvillanásának tulajdonítják – mondja. Mások (köztük ő maga és az olyan kutatók, mint Mitchell) sokkal óvatosabbak. A megosztottság oka szerinte az, hogy egyik véleményt sem támasztják alá meggyőző bizonyítékok.
„Nincs olyan Geiger-számláló, amire rá tudnánk mutatni, miközben azt mondaná, hogy bíp-bíp-bíp – igen, intelligens”
A logikai rejtvényekhez hasonló tesztek, amelyek feltárják az emberek és a mesterséges intelligencia rendszerek képességei közötti különbségeket, a vita mindkét oldal kutatói szerint a helyes irányba tett lépést jelentik. Az ilyen összehasonlító tesztek segíthetnek abban is, hogy megmutassák, mi hiányzik a mai gépi tanuló rendszerekből, és kibogozzák az emberi intelligencia összetevőit – mondja Brenden Lake, a New York-i Egyetem kognitív számítástudományi kutatója.
Mitchell szerint, ha az LLM-eket a valós világban – az orvostudománytól a jogig – akarják alkalmazni, fontos megérteni képességeik határait. “Meg kell értenünk, mire képesek, és hol vallanak kudarcot, hogy tudjuk, hogyan használhatjuk őket biztonságosan”.
A Turing-teszt halott?
A gépi intelligencia leghíresebb tesztje régóta a Turing-teszt, amelyet Alan Turing brit matematikus és számítástechnikai nagyágyú javasolt 1950-ben, amikor a számítógépek még gyerekcipőben jártak. Turing egy olyan értékelést javasolt, amelyet ő imitációs játéknak nevezett el. Ez egy olyan forgatókönyv volt, amelyben emberi bírák rövid, szöveges beszélgetést folytatnak egy rejtett számítógéppel és egy láthatatlan személlyel. Vajon a bíró megbízhatóan felismeri, hogy melyikük a számítógép? Ez a kérdés egyenértékű volt a „Tudnak-e a gépek gondolkodni?”-kérdéssel – javasolta Turing.
Turing nem sok részletet adott meg a forgatókönyvvel kapcsolatban, jegyzi meg Mitchell, így nincs pontos rubrika, amit követni lehetne. „Nem szó szerinti tesztnek szánták, amelyet ténylegesen lefuttatnának a gépen – ez inkább egy gondolatkísérlet volt” – mondja François Chollet, a Google szoftvermérnöke, aki a washingtoni Seattle-ben dolgozik.
De az ötlet, hogy a nyelvet felhasználva felismerjük, hogy egy gép képes-e gondolkodni, megmaradt. Hugh Loebner üzletember és filantróp több évtizeden át finanszírozta a Loebner-díj néven évente megrendezett Turing-tesztet. Emberi bírák szöveges párbeszédet folytattak gépekkel és emberekkel, és megpróbálták kitalálni, hogy melyikük melyik. De ezek az éves összejövetelek 2019 után megszűntek, mert Loebner meghalt, és a pénz is elfogyott, mondja Rob Wortham informatikus. Ő a társigazgatója a Mesterséges Intelligencia Tanulmányozásával és a Viselkedés Szimulációjával Foglalkozó Brit Társaságnak, amely Loebner megbízásából 2014-től kezdve a verseny házigazdája volt. Szerinte az LLM-eknek most jó esélyük lenne arra, hogy egy ilyen versenyen becsapják az embereket; véletlen egybeesés, hogy az események nem sokkal azelőtt értek véget, hogy az LLM-ek igazán beindultak volna.
A benchmarking veszélyei
A Turing-teszt helyett a kutatók jellemzően az AI-rendszereket olyan benchmarkok segítségével értékelik, amelyek célja a teljesítmény értékelése bizonyos képességek, például a nyelvi képesség, a józan ész és a matematikai kapacitás tekintetében. A csapatok egyre inkább az embereknek szánt tanulmányi és szakmai vizsgák felé fordulnak.
Amikor ez év márciusában megjelent a GPT-4, a mögötte álló cég – a kaliforniai San Francisco-i OpenAI – egy sor, gépekhez tervezett benchmarkon tesztelte teljesítményét, beleértve a szövegértést, a matematikát és a kódolást.
A vállalat ezenkívül körülbelül 30 vizsgát tűzött ki a GPT-4 vizsgára, beleértve a következőket: különböző, az egyesült államokbeli középiskolás diákok számára készült, tárgyspecifikus tesztek, egységes ügyvédi vizsga (90 százalékos); vizsga az amerikai orvosok klinikai tudásának jelenlegi állapotának felmérésére (75 százalékos); és egy standard teszt, amelyet az Egyesült Államokban végzett posztgraduális tanulmányok kiválasztási folyamatában használnak, az úgynevezett GRE. Az Uniform Ügyvédi Vizsgán, amely az Egyesült Államok számos államában az ügyvédek minősítési folyamatának részét képezi, a GPT-4 olyan pontszámot ért el, amely az emberek legjobb 10 százalékába helyezte – jelentette az OpenAI(.pdf).
„Sok ilyen nyelvi modell valóban jól teljesít ezeken a benchmarkokon” – mondja Mitchell. “De gyakran nem az a következtetés, hogy ezekben az általános képességekben felülmúlták az embereket, hanem az, hogy a viszonyítási pontok korlátozottak.” Az egyik kihívás, amelyet a kutatók említenek, az az, hogy a modelleket annyi szövegre képezték ki, hogy már láthattak hasonló kérdéseket a képzési adataikban, és így gyakorlatilag keresni fogják a választ. Ezt a problémát szennyeződésnek nevezik.
Az OpenAI azt állítja, hogy ezt úgy ellenőrizte, hogy hasonló szavakat keresett a kérdésekben és a képzési adatokban. Amikor a hasonló karakterláncok eltávolítása előtt és után tesztelték az LLM-eket, alig volt különbség a teljesítményben, ami arra utal, hogy a sikerek nem tulajdoníthatók nagyrészt a szennyeződésnek. Néhány kutató azonban megkérdőjelezte, hogy ez a teszt elég szigorú-e.
Sam Bowman, a New York-i Egyetem nyelvtechnológiai tudósa, aki szintén a San Franciscó-i Anthropic mesterséges intelligencia-cégnek dolgozik, óva int attól, hogy leírják a GPT-4 képességeit, mivel a vizsgaeredményeket pusztán a memorizálás eredményeként utasítja el. A szennyeződés „egy kicsit bonyolítja az állításokat, de nem hiszem, hogy ez annyira megváltoztatja az összképet” – mondja.
És van egy mélyebb probléma a benchmarkok értelmezésében. Egy emberi személy esetén, az ezeken a vizsgákon elért magas pontszámok, megbízhatóan az általános intelligenciát jelzik – ez egy homályos fogalom, de az egyik definíció szerint olyan, amely arra utal, hogy képes jól teljesíteni számos feladatban és alkalmazkodni a különböző kontextusokhoz. Vagyis valakiről, aki jól teljesít a vizsgákon, általában feltételezhető, hogy jól teljesít más kognitív teszteken és felfogott bizonyos elvont fogalmakat. De ez egyáltalán nem igaz az LLM-ekre – mondja Mitchell — ezek egészen másképpen működnek, mint az emberek.
„Az emberekre extrapolált módon történő közelítés nem mindig működik AI-rendszereknél”
Ez azért lehet, mert az LLM-ek csak nyelvből tanulnak, anélkül, hogy a fizikai világban testesülnének meg, nem tapasztalják meg a nyelvnek a tárgyakhoz, tulajdonságokhoz és érzésekhez való kapcsolódását, ahogyan az ember.
„Egyértelmű, hogy nem úgy értik a szavakat, mint az emberek” – mondja Lake. Véleménye szerint az LLM-ek jelenleg azt demonstrálják, „hogyan lehet nagyon folyékonyan beszélni, valódi megértés nélkül”.
Michael Frank, a kaliforniai Palo Alto-i Stanford Egyetem kognitív tudósa nem várja, hogy egyetlen, mindent átfogó teszt is megjelenjen a Turing-teszt utódjaként. „Nincs Rubicon, nincs egyetlen célvonal” – mondja. Inkább úgy gondolja, hogy a kutatóknak sok tesztre van szükségük, hogy számszerűsítsék a különböző rendszerek erősségeit és gyengeségeit.
„Antropomorfizálunk mindent, ami intelligenciát mutat”
„Ez egy átok, mert nem tudunk olyan dolgokra gondolni, amelyek célorientált viselkedést mutatnak az emberi modelleken kívül. És azt képzeljük, hogy azért teszi ezt, mert úgy gondolkodik, mint mi.”