Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Szövegből 3D animációt generál az MI

MEGOSZTÁS

3D animációt készítő modell a mesterségesintelligencia-forradalom legújabb hulláma. Egyelőre viszont nagyon kevés a gyakorlóadat, de a Meta AI fejlesztése így is nagyon ígéretes.

Képek: Meta AI

 

2022 a ChatGPT és a szöveges utasítás, prompt alapján képet létrehozó generatív mesterséges intelligencia (MI) éve volt. Természetesen zene, videó is készíthető így, de ezek a modellek kevésbé elterjedtek, még nem jutottak el az átlagfogyasztókig.

A Meta (leánykori nevén Facebook) AI kutatói, Uriel Singer és munkatársai újabb és az eddigieknél nehezebb vizuális területem igyekeznek alkalmazni MI-modellt: rendszerük bármilyen nézőpontból megtekinthető és renderelhető animált 3D jelenetet alkot szöveges utasításból.

 

Előzmények, kiindulási pont

Rengeteg az online szöveg-szöveg, szöveg-képegyeztetés, sok az ilyen párokból álló internetes korpusz, de már a szöveg-videópár is nagyságrendekkel kevesebb, 3D animáció generáláshoz pedig alig van kezelhető párosítás, azaz nincs elegendő gyakorlópélda.

A kutatók ebből a szomorú tényből kiindulva, előre gyakoroltatott szövegből videót készítő modellt használtak, hogy egy másik, úgynevezett NeRF (neural radiance field) modellt trenírozzanak vele. Mozgó elemekből álló 3D jelenet megjelenítését kellett megtanulnia. A rendszer neve Make-A-Video3D (MAV3D).

Az NeRF 2D kép objektumaiból, jeleneteiből fejlett gépi tanulással 3D-s anyagot létrehozó, a Google által kidolgozott új technika. A teljes objektumot vagy jelenetet mesterséges neurális hálóba kódolva, a háló a 2D kép bármely pontján előrejelzi a fény intenzitását vagy sugárzását (radiance), hogy újszerű 3D nézeteket hozzon létre különböző szögekből.

 

 

Korábban Ben Poole és a Google-nál, illetve a Berkeley Kaliforniai Egyetemen dolgozó munkatársaival 3D gyakorlóadat nélkül építettek szövegből 3D jeleneteket generáló modellt, a DreamFusiont. Szöveg-3D párokon való gyakoroltatás helyett ők is NeRF-technikát alkalmaztak, szöveg-kép diffúziós modellel gyakoroltatták. Visszacsatolási hurkot (feedback loop) hoztak létre a képgenerátor és az NeRF között. Az NeRF térbeli pontok beágyazásaival dolgozik, és megtanult 3D jeleneteket úgy készíteni, hogy illeszkedjenek a különböző szögekből létrehozott 2D képekhez. (A NeRF képes képeket is generálni a jelenetről.)

Tehát a NeRF véletlenszerű 3D jelenetről alkotott 2D képeket. A képekhez zajt adtak, és inputként használták őket egy szövegből képet készítő modellhez. A modell a szöveges prompt alapján élesítette a bemenetet, majd a NeRF az élesített képeket a 3D jelenet élesítésére használta, megismételve a ciklust.

 

Statikus 3D után dinamikus 3D

Az MAV3D ugyanígy működik, három fontos különbséggel.

Számítási műveletek szempontjából jóval hatékonyabb beágyazási módszert (HexPlane) használ, az előre betanított szöveg-kép generátort előre betanított szövegből videót generálóra cserélte, és az NeRF-et úgy módisította, hogy videó-képkockák sorozatait (szekvenciáit) hozza létre. A rendszer szöveges prompttal kezdi, és megtanulja, hogyan generáljon belőle az idő múlásával változó, hozzá kapcsolódó 3D jelenetet.

Tehát az MAV3D lényegében a korai DreamFusion animált változata. Három főmodellből áll: az animált 3D jelenetet hatékonyan megjelenítő HexPlane-ből, a szöveg-képpárokon előre gyakoroltatott Make-A-Videoból (Csinálj egy videót) és a videóhoz/animációhoz módosított NeRF-ből.

A HexPlane animált 3D jelenethez, minden egyes 2D síkon minden egyes ponthoz tizenhat videó-képkocka „hosszon” megtanult egy beágyazást. Ha megadtak neki egy pontot (három térbeli dimenzió plusz az idő), a modell kivetítette minden síkra, előkereste és összefűzte a megfelelő beágyazásokat, hogy pontbeágyazás jöjjön létre.

 

 

A beágyazásokból és a képkockánkénti (frame) véletlenszerű kamera-beállításokból a NeRF videót készített. A rendszer zajt adott a videóhoz, és betáplálta a Make-A-Videoba. Szöveges prompt alapján a Make-A-Video megsaccolta, milyen lehet zaj nélkül a videó.

A HexPlane és az NeRF frissítéséhez matematikai optimalizáláshoz és a döntéselméletben használt veszteségfüggvény minimalizálta az NeRF videó és a Make-A-Video zajtalanított változata közötti különbséget.

A rendszer 12 ezerszer végezte el ezt a folyamatot. Mindegyik alkalommal a kamera véletlenszerű „pályáját” használva, lehetővé vált az összes pont több nézőpontból történő kiértékelése. A kutatók végül mozgó kockákra fejlesztett algoritmussal hatvannégy képkockás animált 3D jelenetet kivonatoltak a NeRF-ből.

 

Ez még csak a kezdet

Mivel egyetlen más rendszer nem készített még szövegből animált 3D jeleneteket, az MAV3D-t részfeladatokat megoldó, szövegből statikus 3D jelenetet, szövegből videót generáló modellekkel hasonlították össze. A kép és a szöveges leírás hasonlóságait mérő módszerrel (CLIP R-Precision) az MAV3D teljesítményét 3D jeleneteknél különböző szögekből készített, több kép, videóknál pedig időben változó képek alapján értékelték ki.

 

 

A Stable Diffusion DreamFusion implementációjánál jobban, a Make-A-Videonál (3D nélkül!) rosszabbul teljesített.

Az outputok nagyon rövid jelenetek, egyenetlen minőségben. Mivel a rendszer pontonként csak egy színt engedélyez, a fényvisszaverő felületek, látószögtől függetlenül, ugyanúgy néznek ki. A beágyazás számításilag ugyan hatékonyabb, mint a DreamFusioné, de jelenetenként így is hat és fél óra kellett nyolc Nvidia A100 csúcs GPU (grafikus feldolgozóegység) használata mellett.

Persze ez csak a kezdet. Az NeRF alkalmazása videókhoz, animációkhoz izgalmas lehetőség, és már a jelenlegi magas számításigény ellenére is más módszerrel több, lényegében pazarlásnak tekinthető számítással kivitelezhető feladatok egyszerűbben és olcsóbban oldhatók meg vele.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!