Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Hogyan vehetők észre mesterséges intelligencia által írt szövegek?

MEGOSZTÁS

Egyre több a mesterséges intelligencia által írt szöveg és egyre nehezebb megkülönböztetni azokat, például a humán szerzők étterem-beszámolóitól. Három technika mégis segíthet.

(Kiemelt kép: unsplash)

 

A mélytanuláson alapuló nagy nyelvmodellek (large language models, LLM) döbbenetes fejlődése a mai mesterségesintelligencia-robbanás motorja. A ChatGPT-t és más appokat napi szinten használjuk, írunk vagy iratunk velük szövegeket, segítségükkel készítünk képeket. Az alkalmazásoknak azonban megvannak a maguk árnyoldalai is, például a félrevezető, hamis információ mellett az oktatásban is kifejezetten kedvelik a szöveggeneráló MI-t, amellyel szakdolgozatokat, beadandókat is készíttetnek, és még plagizálnak is.

Világszerte egyre többen foglalkoznak MI által írt szövegek azonosításával, az arra legpontosabb módszerek kidolgozásával. Jelenleg három eljárás tűnik legalkalmasabbnak a feladatra: vízjelezés, osztályozó modellek használata, statisztikai valószínűség kimutatása. Persze ezekkel a technikákkal is belefuthatunk a hamis pozitívok csapdájába, mint ahogy generált szöveg mellett is könnyen elsiklik a nyomozóalgoritmus figyelme, és arról se feledkezzünk meg, hogy a ChatGPT-t és társait hamisításra és még negatívabb célokra is használó digitális alvilág erőfeszítései sem lankadnak.

A technológiai fejlődéssel, az egyre magasabb szintű MI-vel könnyen lehet, hogy a detektáló technológiákkal is csak szélmalomharcra indulunk, mert az ember által írt és a géppel generált szövegek előbb-utóbb megkülönböztethetetlenek lesznek egymástól. A mostani trendek legalábbis ezt vetítik előre.

robot telefonnal chatbot
Credit: unsplash

 

Vízjelezés

A Maryland Egyetem kutatói emberi szemmel láthatatlan, algoritmus számára viszont észlelhető digitális vízjellel azonosítanák a generatív MI szövegeit. A szöveg vízjelezéséhez, minden egyes új szó létrehozásakor, a szerzők az előző szó felhasználásával random számgenerátort dolgoztak ki, amellyel a modell szókészletének húsz százalékát feketelistára tették. Utána csökkentették e szavak kimeneti valószínűségét, azaz korlátozták, hogy megjelenjenek az outputban.

Adott szövegben összehasonlították a feketelistán szereplő szavak számát azonos hosszúságú, vízjel nélküli kimenetben várható számukkal. Meglátásuk alapján a vízjel akkor van jelen, ha az összehasonlítás áthalad egy megadott küszöbértéken. A teszteken átlagban 99,6 százalékos pontossággal azonosították a generált szövegeket.

A módszerrel a vízjelezést alkalmazó bármelyik modell detektálható. Hackerek a szöveg átfogalmazásával és/vagy a feketelistán szereplő szavak felcserélésével játszhatják ki.

 

Osztályozás

Svájci kutatók a ChatGPT által létrehozott szövegek osztályozására gyakoroltattak be egy modellt, pontosabban egy meglévő osztályozót finomhangoltak a feladatra. Ember és az MI által írt éttermi beszámolókon gyakorolt. A ChatGPT-nek különböző promptokat (szöveges utasításokat) adtak meg, azok alapján írta át emberek anyagait.

Az osztályozó 98 százalékos pontossággal különböztette meg ember és gép szövegeit, a ChatGPT átírásainak pedig a 79 százalékát azonosította. A módszer széleskörű alkalmazásához viszont sokféle szövegeken kellene különböző osztályozókat gyakoroltatni, ráadásul, ha a támadók csak kicsit módosítanak az anyagon, máris romlanak az azonosítási eredmények.

 

Valószínűségszámítás

A Stanford Egyetemen fejlesztett DetectGPT gyakorlóadatok nélkül dolgozik, viszont olyan szöveggenerátorok kimeneti valószínűségeit kellene használnia, amelyek esetében általában nem adnak hozzáférést ezekhez. Emberi és gépi szöveg statisztikai különbségét a két szövegtípus átfogalmazásával képes kimutatni. Mivel a nyelvi modellek kevesebbet bíbelődnek az átfogalmazással, az első és a későbbi változatok összehasonlításával jobban kimutatható, hogy melyiket írta ember, melyiket mesterséges intelligencia.

A kutatók százszor átfogalmaztak MI és ember írta szövegrészeket, üresen hagyva a szavak tizenöt százalékának a helyét, amelyet egy nyelvmodellnek kellett kitöltenie, majd – az eredeti és az átírt anyagok mondatról mondatra történő összehasonlításával – DetectGPT akkor minősített valamit gépileg generált szövegnek, ha (megadott küszöbérték alapján) a kezdeti és a későbbi verziók közötti különbség alig csökkent. A teszteken 84 százalékos pontosságot ért el.

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek