Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Sokat plagizálnak a nagy nyelvmodellek

MEGOSZTÁS

A chatbotok a mesterségesintelligencia-robbanás legmasszívabb jelképei. Rengetegen használják őket, szövegeket szerkesztünk, írunk velük. Vigyázat – sokszor plagizálnak!

Kiemelt kép: Airfocus

 

A nagy nyelvmodellek (large language models, LLM-ek) a jelenlegi mesterségesintelligencia-kutatásfejlesztés egyik „legforróbb topikja”, a technológia többek között a tömegesen használt MI chatbot, a ChatGPT alapja. Mivel az OpenAI beszélgető botjának egy változatát a Microsoft Bing keresőjébe is beintegrálták, és a Google Bardja szintén megjelent, a velük kapcsolatos problémák sokakat érintenek, nagyon komoly gazdasági károkat okozhatnak.

Az egyik probléma, hogy a nyelvi modellek segítségével létrehozott szövegek nem elhanyagolható része plágium. Egyetemeken, középiskolákban bevett módszerré vált e modellek alkalmazása különféle dolgozatok elkészítésekor, rosszabbik esetben az MI írja meg az anyagot. Az újságírásban és más területeken szintén terjed ez a gyakorlat.

 

A plágium három legfontosabb típusa

A bajt súlyosbítva, nem elég, hogy a bot néha valótlanságokat állít, téved, hanem plagizál is. Ha a felhasználók elégedetlenek a munkájával, elfordulnak tőle, csökken a kereslet, a fejlesztő- és a technológiát alkalmazó cégek bevételei csökkenhetnek.

 

Drámai módon terjed a plagizálás (Kép: Flickr)

 

A nyelvmodelleknek megtanították, hogyan utánozzák az emberi írás folyamatát, azt viszont nem, hogy ne plagizáljanak. Az LLM-fejlesztés következő fontos lépéseként „beléjük kell verni”, hogy ne tulajdonítsák el mások munkáit.

A Penn State University kutatói a jelenséget vizsgálva, három területre, három plágiumtípusra összpontosítottak: a szó szerintire, azaz a tartalom közvetlen másolására és beillesztésére, a tartalom az eredeti forrás megjelölése nélküli átfogalmazására, átszerkesztésére és az alapgondolat, az ötlet hivatkozást szintén mellőző felhasználására. Megállapították, hogy a copy-paste mellett gyorsan terjednek a plagizálás kifinomultabb formái.

 

Plágiumfelismerő

Automata plágiumfelismerőt fejlesztettek, és az OpenAI GPT-2-jén tesztelték. Azért döntöttek mellette, mert a gyakorlóadatok online elérhetők, és az általa generált 210 ezer szöveget össze tudták hasonlítani a rendszer betaníttatásához felhasznált nyolcmillió dokumentummal. A modelleket továbbfejlesztették, hogy speciális területekre, a Covid-19-ről szóló cikkekre és szabadalmi igényekre finomhangolták. Nyílt forrású keresőmotorral rákeresetek a gyakorláshoz leginkább használt, a generált anyagokra hasonlító tíz dokumentumra, majd egy szövegkorrigáló algoritmust módosítva, pontosabban ki tudták mutatni a plagizálás eseteit.

 

Segít az írásban a mesterséges intelligencia (Kép: INK Blog)

 

Az LLM-ek mindháromban vétkesek, és minél több paraméterrel dolgozik egy nyelvmodell, annál gyakoribbak az eltulajdonítások. A finomhangolással viszont elérték, hogy kevesebb a szó szerint, és több a másik kettő, sőt, mindhárom típusban személyek privát információit is közkinccsé tették.

Detektoruk a GPT-2-nél újabb modellekre, köztük a ChatGPT-re is alkalmazható. Az elemezhetőség attól függ, hogy a gyakorlóadatok nyilvánosak, vagy sem.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!