A szintetikus adatok segítik a képgenerátorokat

Kömlődi Ferenc

2023. nov 21.

MEGOSZTÁS

Microsoft gépi tanulás OpenAI képtechnológiák mesterséges intelliencia

Terjed az a gyakorlat, hogy mesterségesintelligencia-modell gyakoroltatásához egy másik modellt használnak. A szintetikus adatok nem mindig szerencsések, egyes esetekben, például feliratokkal dolgozó képgenerátoroknál viszont nagyon hasznosak.

Képek: OpenAI

A szövegből képet generáló mesterségesintelligencia-modellek gyakran félreértik az utasítások, a promptok egyes részleteit, de előfordul, hogy az egészet nem tudják értelmezni. Szintetikus feliratok segíthetik őket az utasítások jobb követésében.

Szintetikus adatokat egyébként is egyre nagyobb mértékben használnak a gépi tanulásban. A Gartner technológiai piackutató szerint jövőre a generatív modellek outputjainak hatvan százaléka MI-fejlesztésnél használt adat lesz. Ez egyben problémát is jelent: míg a szintetikus adatok tipikus gyakorlómódszereknél javítanak a teljesítményen, ha viszont egy modellt rekurzív módon, egy másik kimenetén trenírozunk, torzulhatnak a betanított modell kimenetei.

A szintetikus adatok mind sűrűbb felhasználásával, a forgatókönyv gyakran ismétlődhet.

Hogyan javítható a képgenerátor teljesítménye?

Az OpenAI és a Microsoft kutatói úgy javítottak egy (látens diffúziós) modell teljesítményén (https://cdn.openai.com/papers/dall-e-3.pdf), hogy modellekkel generált feliratokat is tartalmazó képfelirat adatkészletre tanították be. Utóbbiak sokkal részletesebbek voltak, mint a webről véletlenszerűen összeszedettek.

Ugyanezt a technikát használták az OpenAI szövegből képet generáló MI-jének, a DALL-E 3-nak a gyakoroltatásához.

Ezek a generátorok adatkészletekből vagy kép-felirat párokból tanulják meg a képek és leírásaik közötti összefüggéseket. A tipikusan kép-felirat adatsorokban a feliratok a kép alanyának leírására korlátozódnak, néhány részlettel róla, a környezetéről, a kép stílusáról stb. A rajtuk gyakoroltatott modellek az elnagyoltságért teljesítenek rosszul a promptok mélyebb tanulmányozásában. Nyelvmodellek viszont részletes feliratokat generálhatnak, részletes szintetikus feliratokon történő gyakoroltatással pedig a képgeneráló bővebb ismeretekkel rendelkezik a szavak és a képek közötti összefüggésekről.

A szerzők egyébként azért írták le a (látens diffúziós) modell gyakoroltatását, mert a DALL-E 3 tanítását nem akarták közkinccsé tenni.

DALL-E 3 remekel

A transzformer nyelvmodellt nem pontosított kép-felirat párokból álló adatsoron tanították, és képbeágyazásokból generált feliratokat. Kifinomultabb feliratok létrehozásához kisebb, házilag készített, majd finomhangolt adatsort használtak, a képek alanyai, a környezet, a háttér, a színek, a stílus stb. sokkal részletesebb leírásával.

A finomhangolt nyelvmodellel a kutatók megint nem pontosított kép-felirat adatsor egymilliárd képének 95 százalékához generáltattak szintetikus feliratokat. Az eredetiből meghagyott maradék öt százalékot ember készítette.

A 95 százalékban szintetikus és 100 százalékban ember által gyűjtött adatokból álló sorokon több (látens diffúziós) modellt gyakoroltattak. A modellek egyaránt 50 ezer képet generáltak, majd kiértékelték a promptok és a képek közötti hasonlóságokat. A szintetikus adatokon gyakorlók valamivel jobb eredményt értek el.

A DALL-E 3, a Midjourney 5.2 és a Stable Diffusion XL v1.0 által generált képekere adott emberi válaszokat szintén értékelték, és kiderült, hogy a DALL-E 3 outputjai jobban megfelelnek a promptoknak, ráadásul tetszetősebbek is. Egy hasonló másik teszten a DALL-E 3 ismét felülmúlta a Stable Diffusion XL v1.0-át.