(Kiemelt kép: unsplash)
A mélytanuláson alapuló nagy nyelvmodellek (large language models, LLM) döbbenetes fejlődése a mai mesterségesintelligencia-robbanás motorja. A ChatGPT-t és más appokat napi szinten használjuk, írunk vagy iratunk velük szövegeket, segítségükkel készítünk képeket. Az alkalmazásoknak azonban megvannak a maguk árnyoldalai is, például a félrevezető, hamis információ mellett az oktatásban is kifejezetten kedvelik a szöveggeneráló MI-t, amellyel szakdolgozatokat, beadandókat is készíttetnek, és még plagizálnak is.
Világszerte egyre többen foglalkoznak MI által írt szövegek azonosításával, az arra legpontosabb módszerek kidolgozásával. Jelenleg három eljárás tűnik legalkalmasabbnak a feladatra: vízjelezés, osztályozó modellek használata, statisztikai valószínűség kimutatása. Persze ezekkel a technikákkal is belefuthatunk a hamis pozitívok csapdájába, mint ahogy generált szöveg mellett is könnyen elsiklik a nyomozóalgoritmus figyelme, és arról se feledkezzünk meg, hogy a ChatGPT-t és társait hamisításra és még negatívabb célokra is használó digitális alvilág erőfeszítései sem lankadnak.
A technológiai fejlődéssel, az egyre magasabb szintű MI-vel könnyen lehet, hogy a detektáló technológiákkal is csak szélmalomharcra indulunk, mert az ember által írt és a géppel generált szövegek előbb-utóbb megkülönböztethetetlenek lesznek egymástól. A mostani trendek legalábbis ezt vetítik előre.

Vízjelezés
A Maryland Egyetem kutatói emberi szemmel láthatatlan, algoritmus számára viszont észlelhető digitális vízjellel azonosítanák a generatív MI szövegeit. A szöveg vízjelezéséhez, minden egyes új szó létrehozásakor, a szerzők az előző szó felhasználásával random számgenerátort dolgoztak ki, amellyel a modell szókészletének húsz százalékát feketelistára tették. Utána csökkentették e szavak kimeneti valószínűségét, azaz korlátozták, hogy megjelenjenek az outputban.
Adott szövegben összehasonlították a feketelistán szereplő szavak számát azonos hosszúságú, vízjel nélküli kimenetben várható számukkal. Meglátásuk alapján a vízjel akkor van jelen, ha az összehasonlítás áthalad egy megadott küszöbértéken. A teszteken átlagban 99,6 százalékos pontossággal azonosították a generált szövegeket.
A módszerrel a vízjelezést alkalmazó bármelyik modell detektálható. Hackerek a szöveg átfogalmazásával és/vagy a feketelistán szereplő szavak felcserélésével játszhatják ki.
Osztályozás
Svájci kutatók a ChatGPT által létrehozott szövegek osztályozására gyakoroltattak be egy modellt, pontosabban egy meglévő osztályozót finomhangoltak a feladatra. Ember és az MI által írt éttermi beszámolókon gyakorolt. A ChatGPT-nek különböző promptokat (szöveges utasításokat) adtak meg, azok alapján írta át emberek anyagait.
Az osztályozó 98 százalékos pontossággal különböztette meg ember és gép szövegeit, a ChatGPT átírásainak pedig a 79 százalékát azonosította. A módszer széleskörű alkalmazásához viszont sokféle szövegeken kellene különböző osztályozókat gyakoroltatni, ráadásul, ha a támadók csak kicsit módosítanak az anyagon, máris romlanak az azonosítási eredmények.
Valószínűségszámítás
A Stanford Egyetemen fejlesztett DetectGPT gyakorlóadatok nélkül dolgozik, viszont olyan szöveggenerátorok kimeneti valószínűségeit kellene használnia, amelyek esetében általában nem adnak hozzáférést ezekhez. Emberi és gépi szöveg statisztikai különbségét a két szövegtípus átfogalmazásával képes kimutatni. Mivel a nyelvi modellek kevesebbet bíbelődnek az átfogalmazással, az első és a későbbi változatok összehasonlításával jobban kimutatható, hogy melyiket írta ember, melyiket mesterséges intelligencia.
A kutatók százszor átfogalmaztak MI és ember írta szövegrészeket, üresen hagyva a szavak tizenöt százalékának a helyét, amelyet egy nyelvmodellnek kellett kitöltenie, majd – az eredeti és az átírt anyagok mondatról mondatra történő összehasonlításával – DetectGPT akkor minősített valamit gépileg generált szövegnek, ha (megadott küszöbérték alapján) a kezdeti és a későbbi verziók közötti különbség alig csökkent. A teszteken 84 százalékos pontosságot ért el.