A generatív mesterségesintelligencia-fejlesztések gyors fellendülésével számos nehézséggel is szembesülünk. A big data, az adatrobbanás korában ugyan nap, mint nap döbbenetes mennyiségű adat termelődik, minőségük viszont egyre megkérdőjelezhetőbb.
A szintetikus adatok problémája
Szinte naponta szembesülünk a nagy fejlesztőcégek, elsősorban az OpenAI, de a Google és mások ellen indított kiadói keresetekről, amelyekben adataik engedély nélküli, jogtalan használatával vádolják őket. Az online hozzáférhető adatok sokszor szerzői jogvédelem alatt állnak, jogilag pedig ingoványos terep megítélni, hogy modellek gyakoroltatásához történő használatuk mikor ütközik törvényekbe, mikor nem. Az MI-rendszerek működését mindenesetre jelentősen hátráltatja, ha kiesnek ezek az adatforrások. Nem véletlen, hogy az OpenAI és a többiek erre vonatkozó szerződéseket kezdtek el kötni médiacégekkel, de a veszteségek még így is számottevők lehetnek.
Másrészt, a mesterséges intelligencia korában az ember által létrehozott „természetes” adatok mellett szintetikusak is generálódnak. Képzeljük el, hogy a modellek idővel egyre gyengébb minőségű adatokon gyakorolnak. Ha már most gyakran megmosolyogjuk a hallucinációikat – amikor maguk által kitalált, a valósággal köszönőviszonyban sem lévő állítással, fabrikált sztorikkal reagálnak promptokra –, mi lesz akkor, amikor eleve ilyen adatokon tanulnak. A mostani hallucinációk semmik azokhoz képest.
A problémára mindenesetre gyorsan kell megoldást találni, és történnek is megsüvegelendő kísérletek.
Ágensek tesznek sokszínűbbé adatkészleteket
Új tendencia szintetikus adatok egyre nagyobb mértékű finomhangolása, ám a gépileg generált adatkészletek ennek ellenére sem elég változatosak. Microsoft-kutatók most mással próbálkoznak: ágensalapú munkafolyamatokkal igyekeznek sokszínűbbé tenni azokat.
Az általuk kidolgozott AgentInstruct kerettel elvileg sokkal jobban diverzifikálhatók adatkészletek, ezekkel a szintetikus adatokkal jobban finomhangolhatók nagy nyelvmodellek (large language models, LLM).
Így működik a rendszer
Eddig jellegzetesen meglévő promptokkal próbálták elérni, hogy a modellek válaszokat és minden bizonnyal további promptokat generáljanak. Az így kapott adatkészletek ugyan javíthatják az LLM teljesítményét, a szintetikus adatok eloszlása azonban nem egyezik meg a valódiakéval, és a teljesítmény nagyon inkonzisztenssé válik.
Módszeresebb megközelítéssel elérhető, hogy az adatok jobban közelítsenek a valódi eloszláshoz. Először promptokat kell generálni nagy és változatos adatkészletből, utána pedig válaszokat.
A kutatók a webről összeszedett három címkézetlen adatkészletből hoztak létre egyetlen szöveges készletet. Tizenhét feladathoz, köztük természetesnyelv-feldolgozáshoz, például olvasás-megértéshez, szójátékokhoz, de kódoláshoz, programhasználathoz és mérések felbecsléséhez is generáltak új példákat.
A meg nem nevezett LLM-mel létrehozott szövegből és utasításból álló promptokat három ágensalapú munkamenettel dolgozták ki: tartalom-átalakítással, utasítás-átalakítással és utasítás-pontosítással. Az elsővel nagyobb utasításgenerálási lehetőséget kínáló szövegváltozatokat, a másodikkal és a harmadikkal pedig bonyolultabb (bár gyakran megoldhatatlan) utasításokat értek el.
Ígéretes kezdet
A feladatokhoz manuálisan jelölték ki az azokat kivitelező ágenseket. Az olvasás-értéshez például tartalom-átalakító ágensek nyers szövegeket változtattak verssé, szatírává stb. Az utasítás-átalakítók negyvenhárom kérdésből álló lista alapján generáltak kérdéseket az átalakított szöveghez.
Az utasítás-pontosítók szöveg-kérdés párokat kaptak, és újabb párokat készítettek hozzájuk, majd többféleképpen módosítottak rajtuk: a szöveget úgy alakították át, hogy a kérdést ne lehessen megválaszolni, a pontos válasz az eredeti ellentétje legyen, illetve a kérdést tették vagy nehezebben megválaszolhatóvá, vagy megválaszolhatatlanná.
A kapott 22 millió promptot (szöveg és utasítás) az Orca-1, Orca-2 és Orca-Math gyakoroltatásához használt 25,8 millió prompttal keverték össze, utána pedig finomhangolt Mistral-7B modellel generáltattak válaszokat az így kapott adatkészletből. Az eredményként létrejött modellt Orca-3-nak nevezték el.
Teljesítményét tizennégy viszonyítási alapból (benchmark) kiindulva a Mistral-7B és a Mistral-7B-Instruct modellel hasonlították össze, és mindegyik kategóriában jobb eredményt ért el. A GPT-4-gyel szemben viszont tizenkettőben alul maradt.
Egyelőre ez csak a kezdet, de az első eredmények bíztatók. Az adatkészletek sokoldalúbbak, modellek jobban finomhangolhatók velük. A keret mintául szolgálhat mesterségesintelligencia-fejlesztőknek újabb feladatokhoz használandó szintetikus adatkészletek kidolgozásához.
Mivel a következő években jelentősen csökken a jó minőségű gyakorlóadat mennyisége, fontos, hogy az adatok egyre meghatározóbb részét képező szintetikusak minősége jelentősen javuljon, és minél több területen használhatók legyenek.
Képek: DeepLearning.ai, Flickr