Mennyire pontosak a más modellek adatain gyakoroltatott mesterséges intelligenciák?

Kömlődi Ferenc

2023. okt 25.

MEGOSZTÁS

gépi tanulás nyelvtechnológiák gyakorlóadatok mesterséges intelliencia

A technológia elterjedésével, egyre több a generatív mesterségesintelligencia-modell. Elszaporodásukkal idővel a minőségük is romlik, amely jórészt azzal magyarázható, hogy nem eredeti, hanem sokadik generációs adatokon gyakorolnak.

Képek: Wikimedia Commons

A nagyon jó minőségű generatív modellek megjelenésével a fejlesztőknek lehetőségükben áll régebbi modellek outputjain gyakoroltatni újakat. A megoldás gyorsabb és olcsóbb, mintha valódi adatsort kellene összeállítaniuk. Viszont, ha maximálisan kiaknázzák a módszer adta lehetőségeket, az eredmény negatív is lehet, mert az új modellek esetleg kevésbé hatékonyak, gyengébb minőségűek.

Ha a modelleket a webről összeszedett adatokon gyakoroltatjuk, és a weben egyre több az így betanított médium, az idő múlásával ezek a modellek egyre gyengébbek lehetnek.

Hogyan jutunk el egy modell összeomlásáig?

De menyire pontosak a más modellek által létrehozott adatokon gyakorolt gépitanulás-modellek? Brit és kanadai kutatók ilyen modelleket elemezve , elméletileg és gyakorlatilag is arra a következtetésre jutottak, hogy a szinte csak korábbi modellek outputjain gyakoroltatottak torz adateloszlást tanulnak meg.

Betanított modellek kisebb valószínűséggel generálnak a gyakorlóadataikban ritkán megjelenő példatípusokat. Emellett, gyakorlóadataikat nem is modellezik tökéletesen, így pedig kimeneteik nem egyeznek meg az eredeti eloszlásával. A gyakorlópéldák elemeit kombinálhatják össze, és ha egy modell sorozatosan egy másiktól tanul, a hibák felhalmozódnak. A szerzők modell-összeomlásnak nevezik a jelenséget.

Az elsőtől a kétezredik generációig

Többfajta modellt gyakoroltattak. Először ember által gyűjtött és összeállított adatkészleten, ez volt a nulladik generáció. Utána az első generációt a nulladik outputján, a másodikat az elsőén tanították, és így tovább. Egyes esetekben a generált példák egy részét az eredeti gyakorlósor példáival helyettesítették.

Egyes modelleket kétezer generáción, az előzőleg létrehozott modellek ezer példáján gyakoroltattak, és az eredeti adatkészletből semmit nem használtak hozzájuk. Közben finomítottak a tanításon, és a sikeres generációkat kizárólag az előző generáció outputján tanították.

Később 125 millió paraméteres nyelvmodellt finomhangoltak, majd a finomhangolást egymást követő kilenc generáción keresztül többféleképpen végezték el: vagy csak a következő generációk példáin, vagy az előzök kilencven és az eredeti tanulóanyag tíz százalékának keverékén.

Az első generáció után lépésről lépésre romlott a minőség, a kétezrediknél szinte teljesen összeomlott a modell. A nyelvmodell esetében szintén egyértelmű volt a minőségromlás. Amikor tíz százalék „eredetivel” dolgoztak, az egymást követő generációk ugyan rosszabbul teljesítettek, de nem annyira pocsékul, mintha semmilyen eredeti példát nem használtak volna.

Mindig kell új információ

A szerzők rekurzív gyakoroltatási folyamata kifejezetten „legrosszabb forgatókönyv”, és generált adatokra, a felmerülő problémák ellenére is szükség van a gyakorláshoz. Ugyanakkor nagyon nem mindegy, honnan jönnek a finomhangoláshoz használt példák. Ha el akarjuk kerülni a modell összeomlását, az adatgenerátornak új információforrásokhoz is hozzá kellene férnie.

Teljesen logikusan, mert – gondoljunk bele – az embernek is új input kell új ötletekhez. A mesterséges intelligencia sem működik másként.