A korábbi videógenerátor modellek kimenetei néha szó szerint is igen döcögősre sikerültek, korlátozott mozgással, vagy mozgáshibákkal, például a szereplő testformája szokatlan, természetellenes módon változott meg. A szöveges utasítások (promptok) alapján történő mozgókép-generálás komoly problémákba ütközött a konzisztens helyváltoztatással és a rotációval.
A Google, a Weizmann Intézet, a Tel-Aviv Egyetem és a szintén izraeli Technion kutatói által fejlesztett, a filmművészet alapítóira emlékező Lumiére rendszer minden egyes képkocka egyszerre történő előállításával megoldotta ezeket a problémákat, az új megközelítés realistább mozgásokat eredményez.
Hogyan működik?
A mesterséges intelligencia általi videógenerálást úgy sikerült leegyszerűsíteniük, hogy az eredmény sokkal jobb lett. Hogyan érhették ezt el?
A legtöbb szöveg-videó rendszer meghatározott folyamattal igyekszik gazdaságossá tenni a memóriahasználatot. Egy modell másodpercenkénti néhány képkockát, a másik a kezdeti képkockák közé kiegészítőket generál, a harmadik minden egyes képkockát nagyobb felbontásban állít elő.
A képkockák közötti bűvészkedéssel viszont az ismétlődő mozgások inkonzisztensek lesznek. Ezt elkerülendő, a kutatók a rendszerrel egyszerre generáltatták az összes képkockát. A memóriaszükséglet csökkentéséért a videógenerátor az intenzív feldolgozás előtt csökkentette a videóbeágyazás méretét, visszaállította az eredetit.
Egy korábbi munkából két komponenst mentettek át. Előre gyakoroltatott szöveg-kép diffúziós modell, az Imagen generálja szöveges leírásokból az alacsony felbontású képkockákat. Felbontásukon meg nem nevezett szuper-felbontású modellel javít. A kutatók az Imagenhez adott rétegeket szintén nem pontosított, harmincmillió videóból (másodpercenkénti 16 képkocka, képkockánként 128×128 pixel) és leírásaikból/címkéikből álló adatkészleten gyakoroltatták.
Lumiére mindent visz
Az eredmények magukért beszélnek.
A Lumiére és a versenytársak (AnimateDiff, Gen2, Imagen Video, Pika és ZeroScope) videóit összehasonlítva, 113 prompthoz kapcsolódó négyszáz videót értékeltek ki. Minőségben Lumiere 61, míg a második Gen2 39 százalékot ért el. A promptokhoz való „hűségben” Lumiére 55-45-re verte a második Imagen Videot.
A Lumiére a videógenerálás és a fejlesztések tempójának kihívásait vetíti előre. Egy ilyen rendszer csak további finomításokkal válik hasznossá, viszont ennek ellenére, az utóbbi időben bámulatos fejlődést tapasztaltunk.
(Képek: DeepLearning.AI)