Utánozhatják-e az emberi viselkedést a nagy nyelvmodellek?

Kömlődi Ferenc

2023. aug 30.

MEGOSZTÁS

Google mesterséges intelligencia prompt AGI ágens Stanford Egyetem világmodell

Ha a mesterséges intelligencia szöveges utasításokra egyre tökéletesebb és emberibb válaszokat képes adni, akkor vajon képes-e az emberi viselkedést utánozni? Egy kaliforniai kutatás alapján igen, de az eredményekből túl merész következtetést ne vonjunk le. Egy kis lépéssel viszont megint közelebb kerültünk az AGI-hoz.

Képek: Wikimedia Commons, Wallpaper Flare, Rawpixel, Wallpaper Flare

A mesterséges intelligencia (MI) három evolúciós szintje, a szűk vagy keskeny MI, az általános MI (Artificial General Intelligence, AGI) és a szuperintelligencia közül a korábbi és a jelenlegi modellek csak az elsőt érték el. AGI és szuperintelligencia csak a tudományos-fantasztikus irodalomban, filmekben és más műalkotásokban létezik.

Egyelőre, és az intelligencia elbírálásánál ne feledkezzünk meg arról az általános hibáról, hogy – különösen gépek esetében – sokan azonosítják a tudatossággal. Az AGI-, sőt, talán a szuperintelligencia-szint is elérhető én- és öntudat nélkül. Nem biztos, hogy így lesz, elképzelhető az MI valamikori öntudatra ébredése, de a magasabb szintű gépi intelligenciának nem feltétele, és ettől még az AGI-nél is messzebb vagyunk.

Világmodell

A klasszikus és a modern MI egyik legfőbb különbsége, hogy míg az előbbibe a fejlesztők igyekeztek – a rendszer működését sajnálatosan lassító, hátráltató, lebénító – világmodellt ágyazni a gépbe, míg a maiak tanulnak, tanulnak, tanulnak, környezetükről és a világról így szereznek ismereteket, és elvileg világmodell is kialakulhat bennük. Az egyik legismertebb gépitanulás-szakértő, Andrew Ng szerint a legfejlettebb mostani MI-k már rendelkeznek tapasztalati úton kialakult világmodellel, területükön tudják, mi történik környezetükben, és ez a generatív MI nagy érdeme, mert az állítás még a 2010-es évek gépitanulás-forradalmával, a „klasszikus” mélytanulással (deep learning) megvalósított mesterséges intelligenciákra sem volt érvényes.

Ha pedig így van, akkor a világmodellel rendelkező MI lehet a kiindulási pont az AGI és a gépi tudatosság felé, mert ezek a rendszerek kezdik kinőni a szűk MI kereteit, egy lépéssel előrébb vannak, igaz, még AGI-nek sem tekinthetők. Amennyiben a fejlődés üteme nem lassul, kívülállók és hozzá nem értők nem próbálják a valós helyzettel köszönőviszonyban sem álló, viszont manipulált, népszerű vágyakat kielégítő szabályozással, korlátozásokkal és tiltásokkal lassítani, akkor az AGI hamarabb megvalósulhat, mint sokan gondolják. Nyilván ne 2028-ra gondoljunk, mint Ray Kurzweil, de jóval korábban a többé-kevésbé belőtt 2100-nál.

Huszonöt ágens két napja egy kisvárosban

Egy, a Stanford Egyetem és a Google kutatói által végzett projekt eredményei – a törvényszerű hibák ellenére is – ezt az álláspontot látszanak alátámasztani.

Abból indultak ki, hogy a nagy nyelvmodellek (Large Language Models, LLM) egyre életszerűbb, emberszerűbb válaszokat adnak szöveges utasításainkra (promptjainkra). Ha a válaszadásban ennyire jók, képesek-e magasabb szintű tevékenységre, például az emberi viselkedés utánzására?

A GPT-3.5 lehetőségeit bővítve, generatív ágenseket hoztak létre. Az ágensek egy kisvárosban végeztek üzleti tevékenységet, emberi módon kommunikáltak egymással. Azaz, úgy tűnik, megfelelő promptokkal, szöveges adatbázissal és a történések nyomon követésére szolgáló szerverrel egy LLM képes az emberi tevékenység szimulálására. (A kód ma már nyílt forrású.)

Ahogy az emberek megfigyelik a világot, egy LLM is le tudja írni az élményeit. A megfigyelések tárolhatók és visszakereshetők, tehát emlékekként funkcionálnak. Az emlékeit megszilárdító, egységesítő emberhez hasonlóan az LLM később használható reflexiókként összegezheti azokat. Következetes viselkedéshez az LLM tervet készíthet, majd az események előrehaladtával felülvizsgálhatja azt.

A kutatók a szimulált városban, az épületek elrendezését és jellemzőit megmutató 2D háttér előtt élő, 2D-ben megjelenített huszonöt ágens két napját figyelték. Mindegyik GPT-3.5-öt, cselekvés-adatbázist, emlékeket, reflexiókat és a GPT-3.5 által generált terveket használt. Cselekedeteiket és az objektumok viselkedését, helyszíneket („X lakásának konyhájában” stb.), állapotokat („be van-e kapcsolva a sütő, vagy nincs” stb.) a szerver követte nyomon, és amikor az ágensek közel jártak, továbbította nekik az infókat.

Délután négykor eszik a cica

A szerver minden egyes időlépésben megfigyelést bocsátott minden egyes ágens rendelkezésére. Az állt benne, hogy mit csinált utoljára, milyen objektumok és személyek, milyen állapotban voltak láthatók. A megfigyelés alapján az ágens aktualitás, relevancia és fontosság szerint emléket „hívott elő.” A relevanciát a megfigyelés és a beágyazások közötti koszinusz-hasonlóság (dokumentumok, szövegek összehasonlításának egyik legelterjedtebb, 0 és 1 közötti mértéke) alapján mérte. A fontosságot úgy osztályozta, hogy megkérte a GPT-3.5-öt: egytől („hétköznapi”) tízig („megrendítő”) ívelő skálán pontozza az emlékeket.

Az emlék lehívását követően az ágens cselekedeteit leíró szöveget generált, a szerver pedig azt felhasználva, frissítette a megfelelő helyszíneket és állapotokat.

A reflexió funkció napi több alkalommal összesítette az utolsó száz emléket. A legfrissebb száz („Y ezt és azt tett a könyvtárban”) alapján az ágens három „magasszintű” kérdést („milyen téma érdekli legjobban Y-t?”) tett fel, amelyekre az emlékei adhatták meg a választ. Minden egyes kérdésre az ágens „előszedte” releváns emlékeit, és öt magasszintű választ generált („Y kutatásai a szennyvíz-tátolásról szólnak”). Ezt követően a megállapításokat tárolta a memóriájában.

A személyazonosságára vonatkozó általános információk és az előző napi emlékek összefoglalása alapján az ágens az aktuális napra dolgozott ki tervet, majd előbb órás, aztán perces bontásokat végzett rajta („16 óra: macskaetetés, víz és száraz táp, 16.05: evőeszközök, tányérok elmosása” stb.). A részletes tervek a memóriába kerültek.

Az ágens minden egyes időlépésben feltette magának a kérdést: kell-e, és ha igen, hogyan kell reagálnia a megfigyelésére? A reagáláshoz a személyazonosságára vonatkozó általános infókat, terveit és a releváns emlékek összegzését használta fel. Ha reagálnia kellett, frissítette a tervét, és a reakcióit leíró nyilatkozatot generált. Ha nem, akkor arról generált egyet, hogy folytatja a már meglévő tervet. Például egy anya megfigyelhet egy másik ágenst, akit emlékei alapján a lányaként azonosít, és a lány pont a matematika-leckét írja. Ezt követően az anya úgy dönthet, hogy megkérdezi a lányát: hogyan halad a leckével?

Ez még nem az AGI, de bármi lehet belőle

Az ágensek három emergens magatartásformát mutattak: eleinte csak saját maguk által ismert információkat terjesztettek, kapcsolatokat alakítottak ki, együttműködtek (például hogy együtt menjenek el egy partira).

A kutatók száz humán kiértékelőnek hozzáférést adtak az összes ágens cselekedeteihez és emlékeihez, majd hihetőség szerint rangsorolták az ágensek válaszait. Utána minden egyes ágens egy vagy több funkciót nélkülöző változatait és a magukat az ágensek „bőrébe bújt” embereket is rangsorolták. Erre azért volt szükség, hogy eldöntsék: az architektúra megfelel-e a viselkedési kompetencia alapszintjének.

A rangsorolásokat mindegyik ágenstípusnál számszerűsítették, és kiderült, hogy a teljes ágensarchitektúra teljesített legjobban, míg a meghatározott funkciókat nélkülözők alacsonyabb pontszámot értek el. Ebben nincs semmi meglepő, abban viszont már annál több, hogy az összes funkcióval rendelkező ágensek az őket „eljátszó” embereknél is jobbnak bizonyultak. Kérdés persze, hogy valóban emberszerűbben cselekedtek – bár nehéz megállapítani, hogy mennyire emberszerűen –, vagy a kiértékelési módszer nem stimmelt. A tapasztalatok mindenesetre több területen, például a játékfejlesztésben, közösségi médiában, robotikában vagy a járványtanban hasznosíthatók.

A kutatók hibákat is megfigyeltek, például egy-egy ágens nem megtörtént dolgokra is emlékezett. Mások furán viselkedtek, például nem ismerték fel, ha egy bolt zárva volt. Néha meghitt beszélgetés során is túl hivatalos nyelvet használtak, vagy szokatlanul búcsúztak el közvetlen hozzátartozóiktól.

A hibák ellenére az output általában meglepően emberire sikerült. Az adatbázissal és szerverrel összekombinált LLM-ek tehát kezdik szimulálni az emberi viselkedést, interakciókat, kapisgálnak valamit belőlük.

Messzemenő következtetéseket persze ne vonjunk le az ágensekből, de az eredményeik mindenképpen biztatóak. Újabb apró lépés, és az AGI-hez ilyen apró lépéseken keresztül vezet az út.