A big data kifejezéssel leírható adatrobbanás, a 2000-es évek elejétől folyamatosan generálódó, mára felfoghatatlanul nagy mennyiségű, két-három év alatt mindig megsokszorozódó adat elárasztotta az online teret. Szerencsére a feldolgozásukhoz szükséges számítási kapacitások, a feldolgozást biztosító technológiák is hasonló tempóban fejlődnek.
Mi következik mindebből?
Például az, hogy az ember önmagában már nem boldogul ekkora adatdömpinggel, számítógépes eszközök nélkül nem tudunk mit kezdeni velük. A mesterséges intelligencia rengeteget segít: sokkal gyorsabb nálunk, és az adatrengetegben számunkra észrevétlen mintázatokat fedez fel. Ez a gépi tanulás egyik legkézzelfoghatóbb eredménye.
Az adatminőség kérdése
Csakhogy kreatív gépitanulás-alkalmazásokhoz, például chatbotokhoz, mint a ChatGPT és minden más generatív megoldáshoz, mondjuk, a szöveges utasításokból, promptokból képeket előállító Midjourney-hez szintén óriási adatmennyiségre van szükség, máskülönben nem lehet megfelelő szint eléréséhez begyakoroltatni őket.
Nagyon nem mindegy, milyen minőségű adatokon trenírozzák ezeket a modelleket. Másik probléma az adatok „tisztasága”, hogy jogvédett tartalmakat csak engedéllyel használjanak a fejlesztőcégek. A terep ingoványos, több média- és zeneipari vállalat pereskedik például az OpenAI-jal a jogszerűtlen felhasználás miatt. A vonatkozó törvények nem egyértelműek, joggyakorlat nincs, az ítéletek évekig precedensértékűek lehetnek.
Big data
A gyakorlóadatok meghatározzák a modell működését, lehetnek elfogultak, előítéletesek, akár rasszisták, bármi előfordulhat velük. Mivel sok adatkészlet száz évekre visszamenő, emberek által gyűjtött adatokból tevődik össze, humán mivoltunk miatt elképzelhetetlen, hogy ne lenne közöttük részrehajló, erősen szubjektív infó.
Paradox módon, hiába termelődik egyre több adat, két-három éven belül mégsem lesz elegendő modellek szövegeken történő gyakoroltatásához. A képi adatokkal kicsit jobb a helyzet, ott „csak” valamikor a következő évtizedben szembesülhetünk a hiánnyal.
A szintetikus adatok problémája
A gépi tanulás során, sikeres neurális hálózatok gyakoroltatásakor nagy mennyiségű szintetikus adat generálódik. Elvileg ezekkel akár meg is lehetne oldani az adathiányt, minőségük viszont rosszabb, mint a természeteseké. Ha egy neurális hálót egy másik korábbi outputjain – általa termelt adatokon – gyakoroltatunk, romlik a modell minősége, és ha a folyamat generációról generációra ismétlődik, további teljesítménycsökkenés a nem kívánt eredmény.
Mit hoz a jövő, a következőgenerációs modelleket is rekurzív, az előzőeken alapuló tanulási gyakorlat szerint trenírozzuk, vagy kitalálunk helyette valami mást?
A webet elárasztják a szintetikus szövegek, képek, videók és zenék, a világháló napról napra növekvő részét adják, és a jelenlegi trendek alapján a fejlesztők egyre több modellt gyakoroltatnak majd rajtuk. A generált gyakorlóadatok eloszlása jobban el fog térni a valódi adatokétól, és a fokozatosan egyre pontatlanabb modellek idővel és hamarabb összeomlanak.
Szintetikus adatok
A web óriási, de mégsem elég nagy és változatos ahhoz, hogy minden feladatra alkalmas gyakorlóadat-mennyiséget gyűjtsünk össze. Ez adja az alapot, hogy a fejlesztők még akkor is más modellek által generált adatokon trenírozzanak neurális hálókat, ha a webet elárasztják a szintetikus adatok.
Az angol Oxford és Cambridge Egyetem, valamint az Imperial College London kutatói 2023-ban modellek összeomlására figyelmeztető tanulmányt írtak. Egy párhuzamos kutatás kimutatta, hogy az elsősorban szintetikus adatokon gyakoroltatott modellek minőségi romlása gyors, outputjaik minősége hamar romlik, a kimenetek egyre egyhangúbbak.
Szintetikus adatokat könnyebb, gyorsabb és olcsóbb létrehozni, mint humán munkaerőt alkalmazni meglévő adatok gyűjtésére és címkézésére. Mellettük szól, hogy ezek az adatok szerzői jogdíj-mentesek, használatuk nem jár pereskedéssel, nagy valószínűséggel nincsenek bennük kényes személyes információk, például orvosi képek, tehát alkalmazásukkal a személyiségi jogokat sem sértjük.
Mi lehet a megoldás?
A legjobb mai modellek közül több (Llama 3.1, Phi 3, Claude 3 családok) szintetikus adatokon gyakorol. A Meta a Llama 3.0-val bemutatta, hogy közvetlen adatgenerálás helyett ágensalapú munkafolyammal használhatóbbak hozhatók létre – a Llama 3.1 trenírozásához ezekkel dolgoztak.
A Meta megközelítése kulcsfontosságú az ismeret-tisztításhoz, amellyel kisebb és a kevesebb paraméter ellenére is hatékony modellek fejleszthetők. Akkor is alkalmazhatók, ha kevés valódi adat áll rendelkezésre, például viszonylag kicsi népesség által beszélt nyelvű anyagok gépi fordításához.
Szintetikus adatok felhasználása
Megoldás lehet, ha a szintetikus adatokat valódiakkal egészítjük ki. Az említett tanulmányban kimutatták, hogy ha csak az adatok tíz százaléka ilyen, szignifikáns mértékben lassítható a modell hanyatlása, jóval tovább működőképes, kimenetei pontosabbak.
A szintetikus adatmennyiség növekedésével kifejezetten hasznos, ha gondosan lekövetjük és adagoljuk őket az adatkészletbe. A Common Crawl nagyléptékű webes adatkészlet rendszeresen készít pillanatfelvételeket az internetről. Ha a generált adatok elárasztják az online környezetet, korábbi pillanatfelvétel alapján nagy mennyiségben megszabadulhatunk tőlük.
Jó hír, hogy generált tartalmak azonosítására fejlesztett algoritmusokkal szűrhetők az adatkészletek. A vízjelezés gyakoribb alkalmazásával a munka könnyebbé válna.
Ezekkel a technikákkal a fejlesztők hosszútávon is kialakítanák adatkészleteikben a valódi és a szintetikus adatok kiegyensúlyozott arányát.
Képek: DeepLearning.ai, Flickr, MIT, Needpix.com