Kiemelt kép: Airfocus
A nagy nyelvmodellek (large language models, LLM-ek) a jelenlegi mesterségesintelligencia-kutatásfejlesztés egyik „legforróbb topikja”, a technológia többek között a tömegesen használt MI chatbot, a ChatGPT alapja. Mivel az OpenAI beszélgető botjának egy változatát a Microsoft Bing keresőjébe is beintegrálták, és a Google Bardja szintén megjelent, a velük kapcsolatos problémák sokakat érintenek, nagyon komoly gazdasági károkat okozhatnak.
Az egyik probléma, hogy a nyelvi modellek segítségével létrehozott szövegek nem elhanyagolható része plágium. Egyetemeken, középiskolákban bevett módszerré vált e modellek alkalmazása különféle dolgozatok elkészítésekor, rosszabbik esetben az MI írja meg az anyagot. Az újságírásban és más területeken szintén terjed ez a gyakorlat.
A plágium három legfontosabb típusa
A bajt súlyosbítva, nem elég, hogy a bot néha valótlanságokat állít, téved, hanem plagizál is. Ha a felhasználók elégedetlenek a munkájával, elfordulnak tőle, csökken a kereslet, a fejlesztő- és a technológiát alkalmazó cégek bevételei csökkenhetnek.
Drámai módon terjed a plagizálás (Kép: Flickr)
A nyelvmodelleknek megtanították, hogyan utánozzák az emberi írás folyamatát, azt viszont nem, hogy ne plagizáljanak. Az LLM-fejlesztés következő fontos lépéseként „beléjük kell verni”, hogy ne tulajdonítsák el mások munkáit.
A Penn State University kutatói a jelenséget vizsgálva, három területre, három plágiumtípusra összpontosítottak: a szó szerintire, azaz a tartalom közvetlen másolására és beillesztésére, a tartalom az eredeti forrás megjelölése nélküli átfogalmazására, átszerkesztésére és az alapgondolat, az ötlet hivatkozást szintén mellőző felhasználására. Megállapították, hogy a copy-paste mellett gyorsan terjednek a plagizálás kifinomultabb formái.
Plágiumfelismerő
Automata plágiumfelismerőt fejlesztettek, és az OpenAI GPT-2-jén tesztelték. Azért döntöttek mellette, mert a gyakorlóadatok online elérhetők, és az általa generált 210 ezer szöveget össze tudták hasonlítani a rendszer betaníttatásához felhasznált nyolcmillió dokumentummal. A modelleket továbbfejlesztették, hogy speciális területekre, a Covid-19-ről szóló cikkekre és szabadalmi igényekre finomhangolták. Nyílt forrású keresőmotorral rákeresetek a gyakorláshoz leginkább használt, a generált anyagokra hasonlító tíz dokumentumra, majd egy szövegkorrigáló algoritmust módosítva, pontosabban ki tudták mutatni a plagizálás eseteit.
Segít az írásban a mesterséges intelligencia (Kép: INK Blog)
Az LLM-ek mindháromban vétkesek, és minél több paraméterrel dolgozik egy nyelvmodell, annál gyakoribbak az eltulajdonítások. A finomhangolással viszont elérték, hogy kevesebb a szó szerint, és több a másik kettő, sőt, mindhárom típusban személyek privát információit is közkinccsé tették.
Detektoruk a GPT-2-nél újabb modellekre, köztük a ChatGPT-re is alkalmazható. Az elemezhetőség attól függ, hogy a gyakorlóadatok nyilvánosak, vagy sem.