Nyitókép: Flickr
A mai nagy nyelvmodellek (large language models, LLM) által generált szövegek inkább nyers vázlatként, semmint kész anyagként használhatók. Akármilyen jónak tűnnek, mindenképpen szükség van emberi beavatkozásra; csiszolnunk, szerkesztenünk kell rajtuk.
A Facebook anyacége, a Meta kutatói megoldást találtak a probléma automatizálására. Egy nyelvmodellnek betanították, hogyan hozzon létre a szerkesztői iránymutatásokhoz alkalmazkodva szöveget.
Ne csak a Wikipédiát használd!
A szöveggenerátor neve Tervez, Szerkeszt, Magyaráz és Ismétel (Plan, Edit, Explain, and Repeat, azaz már megint egy beszédes nevű rövidítés: PEER). A modell rendeltetése, hogy hatékonyabban dolgozzon együtt az író emberrel – az MI legvalószínűbb közeljövőjének, az ember-gép együttműködésnek lehet majd szép példája.
Alapprobléma, hogy nehéz a szerkesztés motivációit, kivitelezését és eredményét jól szemléltető adatokhoz jutni. A Wikipédiánál például minden egyes szócikk szerkesztés-története és a hozzájuk fűzött megjegyzések is nyomom követhetők, de ha egy szerkesztő kizárólag kedvenc online enciklopédiánkon gyakorol, csak az enciklopédia-stílusú szövegekhez fog érteni.
A Wikipédián a felülvizsgálatok visszavonására betanított modell viszont felülvizsgált és felül nem vizsgált példákból álló kiegészítő adatsort is képes szintetizálni. A visszavonás funkciót változatos szövegekre alkalmazva, szerkesztetlen vázlatokat tud létrehozni, és a szerkesztő ezeken a vázlatokon gyakorolhat.
Gépitanulás-modellek egymás között (Kép: Wikimedia Commons)
A PEER négy T5 (Text-to-Text-Transfer-Transformer) nagy nyelvmodellből áll: az egyik felülvizsgál, a másik visszavonja a felülvizsgálatot, a harmadik elmagyarázza, a negyedik dokumentumot hoz létre. A dokumentum a felülvizsgálatok alapja. A modelleket a Wikipédia 6,9 millió példáján gyakoroltatták: átdolgozás előtti és utáni szövegeken, magyarázatokon, idézett dokumentumokon.
A rendszer működése bonyolult, de hatékony
Felülvizsgálatlan szövegből és három idézett dokumentumból az első modell átdolgozás-tervet és felülvizsgált szöveget dolgozott ki. Az ugyanazokkal az anyagokkal dolgozó második szintén megtanulta terv, és mellette, felülvizsgálatlan szöveg kidolgozását is. A felülvizsgált és felülvizsgálatlan szövegeket, és az idézett dokumentumokat használó harmadik a magyarázatgenerálást sajátította el. A szövegeket és a tervet alkalmazó negyedik, megtanulta, hogyan hozzon létre dokumentumot.
A kutatók a begyakoroltatott modellekkel Wikinews és más cikkeken alapuló szintetikus adatsorokat dolgoztattak ki. Az átdolgozatlan szövegeket megjelent cikkekkel kellett összetársítaniuk, terveket, dokumentumokat, aztán további adatsorokat készíttettek velük.
Eljutottak addig, hogy emberrel együttműködve, a felhasználó terve alapján vagy átdolgoznak, vagy generálnak szöveget. Ezeket a feladatokat bármilyen kombinációban, tetszés szerinti alkalommal hajthatjuk végre.
PEER jó eredményt ért el a teszteken.