Lumiére: így készít valósághű videókat a mesterséges intelligencia

Kömlődi Ferenc

2024. febr 16.

MEGOSZTÁS

Technológia Új technológiák Adatgazdaság Rövid hírek Iparági megoldások

prompt képtechnológiák mesterséges intelliencia diffúziós modellek Google videó

A Lumiére ezúttal nem a filmművészetet Edisonnal együtt megalapító lyoni testvérpárra utal, hanem egy mesterséges intelligenciás rendszerre, amely a szövegből a korábbiaknál sokkal jobb mozgóképeket generál.

A korábbi videógenerátor modellek kimenetei néha szó szerint is igen döcögősre sikerültek, korlátozott mozgással, vagy mozgáshibákkal, például a szereplő testformája szokatlan, természetellenes módon változott meg. A szöveges utasítások (promptok) alapján történő mozgókép-generálás komoly problémákba ütközött a konzisztens helyváltoztatással és a rotációval.

A Google, a Weizmann Intézet, a Tel-Aviv Egyetem és a szintén izraeli Technion kutatói által fejlesztett, a filmművészet alapítóira emlékező Lumiére rendszer minden egyes képkocka egyszerre történő előállításával megoldotta ezeket a problémákat, az új megközelítés realistább mozgásokat eredményez.

Hogyan működik?

A mesterséges intelligencia általi videógenerálást úgy sikerült leegyszerűsíteniük, hogy az eredmény sokkal jobb lett. Hogyan érhették ezt el?

A legtöbb szöveg-videó rendszer meghatározott folyamattal igyekszik gazdaságossá tenni a memóriahasználatot. Egy modell másodpercenkénti néhány képkockát, a másik a kezdeti képkockák közé kiegészítőket generál, a harmadik minden egyes képkockát nagyobb felbontásban állít elő.

A képkockák közötti bűvészkedéssel viszont az ismétlődő mozgások inkonzisztensek lesznek. Ezt elkerülendő, a kutatók a rendszerrel egyszerre generáltatták az összes képkockát. A memóriaszükséglet csökkentéséért a videógenerátor az intenzív feldolgozás előtt csökkentette a videóbeágyazás méretét, visszaállította az eredetit.

Egy korábbi munkából két komponenst mentettek át. Előre gyakoroltatott szöveg-kép diffúziós modell, az Imagen generálja szöveges leírásokból az alacsony felbontású képkockákat. Felbontásukon meg nem nevezett szuper-felbontású modellel javít. A kutatók az Imagenhez adott rétegeket szintén nem pontosított, harmincmillió videóból (másodpercenkénti 16 képkocka, képkockánként 128×128 pixel) és leírásaikból/címkéikből álló adatkészleten gyakoroltatták.

Lumiére mindent visz

Az eredmények magukért beszélnek.

A Lumiére és a versenytársak (AnimateDiff, Gen2, Imagen Video, Pika és ZeroScope) videóit összehasonlítva, 113 prompthoz kapcsolódó négyszáz videót értékeltek ki. Minőségben Lumiere 61, míg a második Gen2 39 százalékot ért el. A promptokhoz való „hűségben” Lumiére 55-45-re verte a második Imagen Videot.

A Lumiére a videógenerálás és a fejlesztések tempójának kihívásait vetíti előre. Egy ilyen rendszer csak további finomításokkal válik hasznossá, viszont ennek ellenére, az utóbbi időben bámulatos fejlődést tapasztaltunk.

(Képek: DeepLearning.AI)