Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Szövegből 3D animációt generál az MI

3D animációt készítő modell a mesterségesintelligencia-forradalom legújabb hulláma. Egyelőre viszont nagyon kevés a gyakorlóadat, de a Meta AI fejlesztése így is nagyon ígéretes.

Képek: Meta AI

 

2022 a ChatGPT és a szöveges utasítás, prompt alapján képet létrehozó generatív mesterséges intelligencia (MI) éve volt. Természetesen zene, videó is készíthető így, de ezek a modellek kevésbé elterjedtek, még nem jutottak el az átlagfogyasztókig.

A Meta (leánykori nevén Facebook) AI kutatói, Uriel Singer és munkatársai újabb és az eddigieknél nehezebb vizuális területem igyekeznek alkalmazni MI-modellt: rendszerük bármilyen nézőpontból megtekinthető és renderelhető animált 3D jelenetet alkot szöveges utasításból.

 

Előzmények, kiindulási pont

Rengeteg az online szöveg-szöveg, szöveg-képegyeztetés, sok az ilyen párokból álló internetes korpusz, de már a szöveg-videópár is nagyságrendekkel kevesebb, 3D animáció generáláshoz pedig alig van kezelhető párosítás, azaz nincs elegendő gyakorlópélda.

A kutatók ebből a szomorú tényből kiindulva, előre gyakoroltatott szövegből videót készítő modellt használtak, hogy egy másik, úgynevezett NeRF (neural radiance field) modellt trenírozzanak vele. Mozgó elemekből álló 3D jelenet megjelenítését kellett megtanulnia. A rendszer neve Make-A-Video3D (MAV3D).

Az NeRF 2D kép objektumaiból, jeleneteiből fejlett gépi tanulással 3D-s anyagot létrehozó, a Google által kidolgozott új technika. A teljes objektumot vagy jelenetet mesterséges neurális hálóba kódolva, a háló a 2D kép bármely pontján előrejelzi a fény intenzitását vagy sugárzását (radiance), hogy újszerű 3D nézeteket hozzon létre különböző szögekből.

 

 

Korábban Ben Poole és a Google-nál, illetve a Berkeley Kaliforniai Egyetemen dolgozó munkatársaival 3D gyakorlóadat nélkül építettek szövegből 3D jeleneteket generáló modellt, a DreamFusiont. Szöveg-3D párokon való gyakoroltatás helyett ők is NeRF-technikát alkalmaztak, szöveg-kép diffúziós modellel gyakoroltatták. Visszacsatolási hurkot (feedback loop) hoztak létre a képgenerátor és az NeRF között. Az NeRF térbeli pontok beágyazásaival dolgozik, és megtanult 3D jeleneteket úgy készíteni, hogy illeszkedjenek a különböző szögekből létrehozott 2D képekhez. (A NeRF képes képeket is generálni a jelenetről.)

Tehát a NeRF véletlenszerű 3D jelenetről alkotott 2D képeket. A képekhez zajt adtak, és inputként használták őket egy szövegből képet készítő modellhez. A modell a szöveges prompt alapján élesítette a bemenetet, majd a NeRF az élesített képeket a 3D jelenet élesítésére használta, megismételve a ciklust.

 

Statikus 3D után dinamikus 3D

Az MAV3D ugyanígy működik, három fontos különbséggel.

Számítási műveletek szempontjából jóval hatékonyabb beágyazási módszert (HexPlane) használ, az előre betanított szöveg-kép generátort előre betanított szövegből videót generálóra cserélte, és az NeRF-et úgy módisította, hogy videó-képkockák sorozatait (szekvenciáit) hozza létre. A rendszer szöveges prompttal kezdi, és megtanulja, hogyan generáljon belőle az idő múlásával változó, hozzá kapcsolódó 3D jelenetet.

Tehát az MAV3D lényegében a korai DreamFusion animált változata. Három főmodellből áll: az animált 3D jelenetet hatékonyan megjelenítő HexPlane-ből, a szöveg-képpárokon előre gyakoroltatott Make-A-Videoból (Csinálj egy videót) és a videóhoz/animációhoz módosított NeRF-ből.

A HexPlane animált 3D jelenethez, minden egyes 2D síkon minden egyes ponthoz tizenhat videó-képkocka „hosszon” megtanult egy beágyazást. Ha megadtak neki egy pontot (három térbeli dimenzió plusz az idő), a modell kivetítette minden síkra, előkereste és összefűzte a megfelelő beágyazásokat, hogy pontbeágyazás jöjjön létre.

 

 

A beágyazásokból és a képkockánkénti (frame) véletlenszerű kamera-beállításokból a NeRF videót készített. A rendszer zajt adott a videóhoz, és betáplálta a Make-A-Videoba. Szöveges prompt alapján a Make-A-Video megsaccolta, milyen lehet zaj nélkül a videó.

A HexPlane és az NeRF frissítéséhez matematikai optimalizáláshoz és a döntéselméletben használt veszteségfüggvény minimalizálta az NeRF videó és a Make-A-Video zajtalanított változata közötti különbséget.

A rendszer 12 ezerszer végezte el ezt a folyamatot. Mindegyik alkalommal a kamera véletlenszerű „pályáját” használva, lehetővé vált az összes pont több nézőpontból történő kiértékelése. A kutatók végül mozgó kockákra fejlesztett algoritmussal hatvannégy képkockás animált 3D jelenetet kivonatoltak a NeRF-ből.

 

Ez még csak a kezdet

Mivel egyetlen más rendszer nem készített még szövegből animált 3D jeleneteket, az MAV3D-t részfeladatokat megoldó, szövegből statikus 3D jelenetet, szövegből videót generáló modellekkel hasonlították össze. A kép és a szöveges leírás hasonlóságait mérő módszerrel (CLIP R-Precision) az MAV3D teljesítményét 3D jeleneteknél különböző szögekből készített, több kép, videóknál pedig időben változó képek alapján értékelték ki.

 

 

A Stable Diffusion DreamFusion implementációjánál jobban, a Make-A-Videonál (3D nélkül!) rosszabbul teljesített.

Az outputok nagyon rövid jelenetek, egyenetlen minőségben. Mivel a rendszer pontonként csak egy színt engedélyez, a fényvisszaverő felületek, látószögtől függetlenül, ugyanúgy néznek ki. A beágyazás számításilag ugyan hatékonyabb, mint a DreamFusioné, de jelenetenként így is hat és fél óra kellett nyolc Nvidia A100 csúcs GPU (grafikus feldolgozóegység) használata mellett.

Persze ez csak a kezdet. Az NeRF alkalmazása videókhoz, animációkhoz izgalmas lehetőség, és már a jelenlegi magas számításigény ellenére is más módszerrel több, lényegében pazarlásnak tekinthető számítással kivitelezhető feladatok egyszerűbben és olcsóbban oldhatók meg vele.

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!