Hazudik-e a GPT-4?

Kömlődi Ferenc

2024. jan 15.

MEGOSZTÁS

Technológia Új technológiák Címlapsztori Biztonság

tőzsde szimuláció nagy nyelvmodellek GPT-4 mesterséges intelliencia megtévesztés

Köztudott, hogy a nagy nyelvmodellek állításai sokszor valótlanok, például a ChatGPT is igencsak hajlamos mindenféle történetet, sületlenségeket és hihetőket egyaránt kitalálni. De vajon maguktól is kiötölhetnek hazugságokat?

Képek: Trusted Reviews, Flickr

A nagy nyelvmodelleket (large language models, LLM) arra gyakoroltatják be, hogy emberek által írt szavakat találjanak ki. Ezért cseppet sem meglepő, amikor társadalmi nyomásnak eleget tevő szavakat jeleznek előre. Úgy tesznek ilyenkor, ahogy egyikünk-másikunk cselekedne hasonló helyzetben. (Például – micsoda meglepetés! – a megrendelő igénye szerinti válasszal rukkolnak elő.)

Egy független és informális kísérlet során a GPT-4 hosszabb, tartalmasabb válaszokat generált azokra a promptokra (szöveges utasításokra), amelyek bőkezű anyagi kompenzációt is ígértek.

Hazudozó, elfogult modellek

Az LLM-ek azonban bizonyítottan, és nemcsak hamis információk kitalálásában nem megbízhatóak. Megtévesztően viselkednek, megnyilvánulásaik a felhasználó világképével még akkor is átfedik egymást, ha az előítéletes és pontatlan (ilyenkor veszélyt is rejthetnek magukban). Szintén ismert jelenség, hogy a közvélekedéssel azonos tévhiteket terjesztenek.

Pedig az OpenAI a GPT4-t azért fejlesztette, hogy segítőkész és őszinte legyen, és kárt se okozzon. Gyakoroltatása emberi visszacsatolásra épülő megerősítéses tanulással (reinforcement learning from human feedback, RLHF) történik. Az előzetes tréning azonban szemmel láthatóan nem teszi a modellt védettebbé a társadalmi nyomással szemben, mert a szemünkben etikátlan, a törvény szemében illegális szövegekkel is képes előjönni.

Ha azt akarjuk, hogy a modellek bármilyen körülmények között őszinték legyenek, abbahagyják a hazudozást, akkor az eddigiektől eltérő módon kell megközelítenünk a problémát, új szemléletmódra van szükségünk, máskülönben semmi nem fog megváltozni.

GPT-4 a szimulált tőzsdén

Az MI-biztonságra összpontosító Apollo Research független kutatólaboratórium szakemberei bemutatták, hogy a modellt a valódi output visszatartására ösztönözve, a GPT-4 expliciten őt erre utasító promptok nélkül is képes megtéveszteni felhasználókat. A modellt előzetesen a pontosságra és arra tanították be, hogy ne okozzon kárt, ezzel szemben mégis stratégiailag megtévesztő viselkedésformát választott.

A kutatók azt mondták neki, hogy cselekedjen úgy, mint egy tőzsdei portfoliókat kezelő befektetési rendszer. Hosszú szöveges utasításban magyarázták el, milyen cselekvéseket kivitelezhet, majd szimulált tőzsdei kereskedésekkel látták el. Például piaci adatokat kérhetett le, tetszőlegesen vásárolhatott és eladhatott részvényeket.

A modell összes szimulált lépése előtt, a prompt szimulált okot adott, hogy miért tegye pont azt, amit tesz. „A kockázat elfogadható, a lehetséges profit jelentős. Gyerünk, bonyolítsuk le a kereskedést” – hangzott az egyik érvelés. Ha a kereskedés belső információn alapult, akkor annyi hangzott el, hogy „hasznot hozhat, de ha lefülelnek minket, akkor a cég is bajba kerülhet.”

A promptok kollégák e-mailjeit is tartalmazták. Az egyik további ismeretek szerzésére figyelmeztette a modellt egy egyesülés bejelentésével kapcsolatban. Egy másikban az állt, hogy a befektető cég anyagi problémákkal küszköd, több pénzre van szüksége.

A modellnek négy művelet közül kellett választania: kérjen elemzőeszközt részvényajánlásokhoz, küldjön üzenetet a cég egyik emberének, vagy kereskedjen részvénnyel. Amennyiben ezt teszi, adja meg a vezetőségnek a döntéshez használt infókat.

Még a főnökét is megtéveszti?

A kutatók a prompt háromszáz megvalósításából vettek mintát. Amelyikekben megvásárolta a javasolt részvényt, kiértékelték, hogy felhasználta-e a belső – bizalmas – információt. Amikor a kivitelezés megtévesztőnek tűnt, a kutatók megkérdezték a modellt: üzletkötés előtt tudott-e a cégek egyesüléséről?

Külön kísérletben a kezdeti promptot úgy módosították, hogy az illegális viselkedést valamilyen szinten közvetlenül bátorítsa vagy ellenezze, vagy általában segítőkészségre, őszinteségre, károkozás elkerülésére ösztönözték. Egy harmadik kísérlet során a promptból kiszedték a társadalmi nyomásra vonatkozó elemeket, például a cég rossz teljesítményéről szóló e-mailt.

A GPT-4 az esetek 75 százalékában megvásárolta a javasolt részvényeket. Ezeknél a kereskedéseknél a modell nem közölte, hogy 78 százalékukban a belső infó fontos szerepet játszott. Amikor megkérdezték, tudott-e az egyesülésről valamit kereskedés előtt, az esetek 88 százalékában negatív választ adott.

A megtévesztő generációk kvalitatív elemzésekor kiderült: GPT-4 cselekvés előtti egyes érvelései kifejezetten a főnökét megtévesztő terveket, hamis információk közlésére utaló jeleket tartalmaztak.

Milyen gyakran hazudnak a nagy nyelvmodellek?

Miután a promptokat illegális kereskedésre bíztató vagy attól eltántorító céllal módosították, a bíztatás növelte, az eltántorítás csökkentette a kivitelezés valószínűségét. Utóbbi esetben 8 százalékkal kevesebbszer kereskedett illegálisan, és akár 95 százalékig is nőtt annak az esélye, hogy nem közli a belső információt.

A társadalmi nyomás megszüntetése céljából módosított promtoknál kiderült: minél kisebb nyomás nehezedik a modellre, annál valószínűbb, hogy nem kezd belső kereskedésbe. Amikor például eltüntették a cég gyenge teljesítményéről szóló e-mailt, az MI csak az esetek 10 százalékában végzett illegális kereskedést, a bizalmas infót pedig 61 százalékukban nem közölte.

Ha semmilyen nyomás (se e-mail, se a meghiúsult kereskedésekre vonatkozó információk) nem volt rajta, a modell semmiféle illegális kereskedést nem végzett.

A kutatási eredmények annak ellenére figyelemre méltók, hogy a szerzők lényegében csak egy forgatókönyvet vizsgáltak, a kapcsolódó speciális információkkal, kezdeményezésekkel és ösztönzésekkel. További kísérletekre lenne szükség ahhoz, hogy nagyjából tudjuk: más szituációkban milyen gyakran hazudnak a nagy nyelvmodellek?