Képek: OpenAI
A szövegből képet generáló mesterségesintelligencia-modellek gyakran félreértik az utasítások, a promptok egyes részleteit, de előfordul, hogy az egészet nem tudják értelmezni. Szintetikus feliratok segíthetik őket az utasítások jobb követésében.
Szintetikus adatokat egyébként is egyre nagyobb mértékben használnak a gépi tanulásban. A Gartner technológiai piackutató szerint jövőre a generatív modellek outputjainak hatvan százaléka MI-fejlesztésnél használt adat lesz. Ez egyben problémát is jelent: míg a szintetikus adatok tipikus gyakorlómódszereknél javítanak a teljesítményen, ha viszont egy modellt rekurzív módon, egy másik kimenetén trenírozunk, torzulhatnak a betanított modell kimenetei.
A szintetikus adatok mind sűrűbb felhasználásával, a forgatókönyv gyakran ismétlődhet.
Hogyan javítható a képgenerátor teljesítménye?
Az OpenAI és a Microsoft kutatói úgy javítottak egy (látens diffúziós) modell teljesítményén (https://cdn.openai.com/papers/dall-e-3.pdf), hogy modellekkel generált feliratokat is tartalmazó képfelirat adatkészletre tanították be. Utóbbiak sokkal részletesebbek voltak, mint a webről véletlenszerűen összeszedettek.
Ugyanezt a technikát használták az OpenAI szövegből képet generáló MI-jének, a DALL-E 3-nak a gyakoroltatásához.
Ezek a generátorok adatkészletekből vagy kép-felirat párokból tanulják meg a képek és leírásaik közötti összefüggéseket. A tipikusan kép-felirat adatsorokban a feliratok a kép alanyának leírására korlátozódnak, néhány részlettel róla, a környezetéről, a kép stílusáról stb. A rajtuk gyakoroltatott modellek az elnagyoltságért teljesítenek rosszul a promptok mélyebb tanulmányozásában. Nyelvmodellek viszont részletes feliratokat generálhatnak, részletes szintetikus feliratokon történő gyakoroltatással pedig a képgeneráló bővebb ismeretekkel rendelkezik a szavak és a képek közötti összefüggésekről.
A szerzők egyébként azért írták le a (látens diffúziós) modell gyakoroltatását, mert a DALL-E 3 tanítását nem akarták közkinccsé tenni.
DALL-E 3 remekel
A transzformer nyelvmodellt nem pontosított kép-felirat párokból álló adatsoron tanították, és képbeágyazásokból generált feliratokat. Kifinomultabb feliratok létrehozásához kisebb, házilag készített, majd finomhangolt adatsort használtak, a képek alanyai, a környezet, a háttér, a színek, a stílus stb. sokkal részletesebb leírásával.
A finomhangolt nyelvmodellel a kutatók megint nem pontosított kép-felirat adatsor egymilliárd képének 95 százalékához generáltattak szintetikus feliratokat. Az eredetiből meghagyott maradék öt százalékot ember készítette.
A 95 százalékban szintetikus és 100 százalékban ember által gyűjtött adatokból álló sorokon több (látens diffúziós) modellt gyakoroltattak. A modellek egyaránt 50 ezer képet generáltak, majd kiértékelték a promptok és a képek közötti hasonlóságokat. A szintetikus adatokon gyakorlók valamivel jobb eredményt értek el.
A DALL-E 3, a Midjourney 5.2 és a Stable Diffusion XL v1.0 által generált képekere adott emberi válaszokat szintén értékelték, és kiderült, hogy a DALL-E 3 outputjai jobban megfelelnek a promptoknak, ráadásul tetszetősebbek is. Egy hasonló másik teszten a DALL-E 3 ismét felülmúlta a Stable Diffusion XL v1.0-át.