Egyelőre nem tudni pontosan, mikor használhatjuk a februárban bemutatott modellt, de a fejlesztőcég addig is izgalmas videókkal szórakoztatja és döbbenti meg, csigázza fel az érdeklődőket. Ízelítőt kapunk mindabból, mit tehetünk majd vele.
MI lesz negyven év múlva?
A legújabb első személyű nézőpontból felvett mozgóképanyag 2064-es TED Talksra kalauzol. Az OpenAI a modellt február óta használó, alfa-tesztelő Paul Trillo filmrendező és forgatókönyvíró munkáját tette közkinccsé. A művész élőfelvételeket előszeretettel kombinál össze mesterséges intelligencia által generált anyagokkal, alkotásai több technológiai magazinban, fesztiválokon is szerepeltek már.
Az új videón a drónkamera futurisztikus földalatti laboratóriumon és víz alatti alagutakon száguld végig szemléltetve Sora potenciálját. A közösségi médiában népszerűvé vált első személyű drónstílusú felvételekhez hagyományosan fejlett drónpilóta képességek és drága felszerelés kell, már amennyire a dróntechnológia, a drónokkal történő filmezés hagyományosnak mondható.
What will TED look like in 40 years? For #TED2024, we worked with artist @PaulTrillo and @OpenAI to create this exclusive video using Sora, their unreleased text-to-video model. Stay tuned for more groundbreaking AI — coming soon to https://t.co/YLcO5Ju923! pic.twitter.com/lTHhcUm4Fi
— TED Talks (@TEDTalks) April 19, 2024
Az OpenAI modellje ezt tette múlt időbe, effektusaival új képalkotóknak nagyságrendekkel alacsonyabb költségen nyújt lehetőséget kreatív álmaik kivitelezésére. Persze egyelőre fogalmunk sincs, Sora mennyibe fog kerülni, és azt sem tudjuk, mennyire lesz nyilvános az a nyilvános hozzáférhetőség.
A videóból azonban az is kiderül, hogy a modellel egyelőre nem készíthetők teljes filmek. A szereplők csak másodpercekig láthatók a képernyőn, és sok a megmagyarázhatatlan elem, amelyekből ha mást nem is, de azt biztosan tudjuk, hogy nem ember az alkotó.
A végeredmény le is nyűgöz, el is bizonytalanít, Sora valószínűleg ezért nem nyilvános még. Nyilvánvalóan több és egyre jobb minőségű videót látunk még a széleskörű hozzáférésig.
Sem az OpenAI, sem a TED Talks nem árulta el, hogyan készült a videó. Trillo viszont nemrég beszámolt tesztelőként átélt élményeiről, például az általa használt szöveges utasításokról (promptokról). Mint írta, igyekszik olyanokkal dolgozni, amelyek eredményeként a néző kevésbé érzi magát egy videójátékban. A promptok között szerepel a
- „35 milliméter”
- „amamorfikus lencse”
- „mélységélesség objektív”
és hasonlók. Ezeket Sora alapbeállításként kezeli, így adva a videóknak egyfajta filmes élményt, hangulatot. Egyelőre az összes prompt az OpenAI-on megy csak keresztül, tehát a céget még nem érhetik az output miatti szerzői jogi támadások (amelyekért többen nekik mentek, a New York Times-szal valamikor perre kerül sor.) Trillo szerint
Sora mai állapotában olyan, mint egy pénzbedobó automata: kérünk tőle valamit, összekeveri az ötleteket, nincs benne valódi fizikai motor.
Azaz az emberek és tárgyak állapotát illetően még nem konzisztens, amit az OpenAI is elismer. Szimulátorként szintén megvannak a maga korlátai: a fizika modellezésével, például alapvető interakciók megjelenítésével akadnak problémái.
A jövőben nyilván fejlődni fog, és különösebb jóstehetség nélkül elmondható: előbb-utóbb bekerül a filmesek technológiai arzenáljába.
(Képek: OpenAI)