(Kiemelt kép: Unsplash+)
Az OpenAI legújabb projektje a Sora, egy hatékony szövegből videót készítő modell, mely egyszerű szöveges kérések alapján képes észbontó videókat generálni. Ez az élvonalbeli mesterséges intelligenciamodell lehetővé teszi a felhasználók számára, hogy leírjanak egy jelenetet, például „Egy ember sétál a Holdon egy dalmata kutyával”, és a Sora a leírásnak megfelelő fotorealisztikus videót generál belőle.
A korábbi OpenAI-projektekhez, például a DALL-E-hez és a ChatGPT-hez hasonlóan a Sora várhatóan forradalmasítani fogja a technológiával való interakció és a tartalomkészítés módját.
Technológia a színfalak mögött
Technikai oldalról az OpenAI nem tett közzé túl sok részletet, de van néhány kulcsfontosságú elem, melyet a kiadás részeként kiemeltek. Tekintsünk át néhányat közülük.
Szakítás a hagyományokkal: A szöveg-videó modellekben a kutatók hagyományosan különböző technikákat vizsgáltak, beleértve a rekurrens hálózatokat, a generatív adverzális hálózatokat, az autoregresszív transzformátorokat és a diffúziós modelleket. Ezek a módszerek gyakran a vizuális tartalmak meghatározott típusait célozzák meg, rövidebb klipekre vagy szabványos méretű videókra összpontosítva. Az OpenAI Sora azonban szakít ezekkel a korlátokkal, mivel egy olyan sokoldalú modell, mely képes videókat és képeket készíteni az időtartamok, képarányok és felbontások széles skáláján, és akár egyperces nagy felbontású videókat is képes létrehozni.
A modell: Az OpenAI Sora diffúziós modellként működik, a videógenerálási folyamatot egy statikus zajra emlékeztető kezdeti állapottal kezdi, és ezt fokozatosan finomítja a zaj számos lépésen keresztül történő csökkentésével. A Sora büszkélkedhet azzal a képességgel, hogy egyetlen folyamat során teljes videókat hozhat létre, vagy meglévő videókat bővíthet, növelve azok hosszát. Ez az újítás megoldja azt az összetett kihívást, hogy a videóban a témák konzisztensek maradjanak, még akkor is, ha pillanatnyilag eltűnnek is esetlegesen a képkockából.
A GPT-modellek tervezési elveit követve a Sora transzformátor-architektúrára épül, ami figyelemre méltó skálázhatóságot tesz lehetővé a teljesítményében. A modell a videókat és a képeket kisebb adatszegmensek, úgynevezett „foltok” összességeként kezeli. Ezek a foltok a GPT-modellekben használt tokenekhez hasonlíthatók, lehetővé téve az adatreprezentáció egységes megközelítését. Ez a stratégia lehetővé teszi, hogy a Sora változatosabb vizuális adatokon képezhető legyen, melyek az időtartamok, felbontások és képarányok széles spektrumát lefedik.
A Sora a DALL-E és a GPT modellek alapműveiből merít ihletet, beépítve a DALL-E 3 „újrateremtési” technikáját. Ez a módszer a vizuális képzési adatokhoz részletes feliratok készítését foglalja magában, ami fokozza a modell azon képességét, hogy szorosan „ragaszkodjon” a felhasználók által az általa generált videókban megadott szöveges utasításokhoz.
Kiváló minőségű kimenetek
Az alábbiakban felsorolunk néhányat a Sora legfontosabb nóvumát közül a szöveg-kép modell technikákhoz. A modell egy sor olyan technikát alkalmaz, amely a jelek szerint a kiváló minőségű kimenetek sarokköve.
A vizuális adatok foltokká alakítása: A nagyméretű nyelvi modellek (LLM) fejlődéséből merítve ihletet, melyek hatalmas mennyiségű internetes adaton való képzés révén generalista képességekre tettek szert, a Sora fejlesztői hasonló elvet alkalmaztak a vizuális adatokra. Ahogy az LLM-ek tokeneket használnak a szöveg különböző formáinak feldolgozásához, a Sora vizuális foltokat alkalmaz. Ez a megközelítés skálázható és hatékony módszernek bizonyult a generatív modellek különböző videó- és képtípusokon történő betanítására.
Videó tömörítő hálózat: A vizuális adatok komplexitásának kezelésére a Sora egy olyan hálózatot tartalmaz, melyet az adatok időbeli és térbeli tömörítésére terveztek. Ez a folyamat magában foglalja a nyers videó átalakítását egy látens reprezentációvá, melynek létrehozására a Sora be van tanítva. Egy dekódoló modellt is kifejlesztettek, mely ezeket a látens reprezentációkat visszaalakítja vizuális formába, lehetővé téve a részletes képek és videók létrehozását.
Téridőbeli látens foltok: A Sora a tömörített videóadatokat téridőfoltok sorozatainak kivonásával kezeli, hasonlóan ahhoz, ahogyan a transzformátorok a tokeneket használják. Ez a módszer képekre is alkalmazható, egykockás videóknak tekintve őket. A foltok használatával a Sora képes kezelni a különböző felbontású, időtartamú és képarányú képzési adatokat. A generálás során a kimeneti videó mérete a foltok kívánt méretű rácsba rendezésével állítható be.
A videógeneráláshoz használt méretezési transzformátorok: A Sora alapvetően egy diffúziós modell-megközelítést foglal magában egy transzformátor-architektúrán belül. Ez a beállítás lehetővé teszi, hogy a Sora zajos foltokkal kezdjen, és a képzés révén megtanulja megjósolni az eredeti, változatlan állapotukat. A transzformátorok használata lehetővé teszi, hogy a Sora hatékonyan skálázható legyen a különböző típusú vizuális adatgenerálási feladatok között.
Rugalmasság a kimenetben: A korábbi modellekkel ellentétben, melyek a videódimenziók szabványosítását igényelték, a Sora előnye, hogy az adatokat a natív méretükben képzi ki. Ez a rugalmasság lehetővé teszi a videók generálását a legkülönbözőbb méretekben és képarányokban, a szélesvásznú formátumtól a függőleges orientációig, így a különböző eszközök és platformok számára is alkalmas. Emellett a Sora támogatja a gyors prototípus készítést alacsonyabb felbontásban, mielőtt teljes felbontású tartalmat generálna, mindezt ugyanazon a keretrendszeren belül.
Ezek csak nagyon apró technikai részletek a Sorával kapcsolatban. Az OpenAI hamarosan közzétesz egy részletesebb technikai jelentést, mely több fényt oszt meg a videógeneráló modell mögötti varázslatról.
A Sora demisztifikálása
Sora, első pillantásra meghökkentő dolgokra képes, de sokak számára mégis buta modell? Az az érzésünk, hogy a dolgok jelentősen megváltoztak egy csapásra. Ezt érezte szinte mindenki, aki látta, mire is képes már az MI-vel felvértezett Sora. Nemrég láttuk a Google Lumiere modelljét, és azt, hogy mennyivel jobb ez, mint bármi, amit eddig láttunk. Nos, egy héttel később az OpenAI Sora teljesen kiütötte a Lumiere-t. Így ma kibontunk mindent, amit erről az „életünket radikálisan megváltoztató” modellről tudni lehet, és hogy mit is jelent ez a jövőre nézve.
Mindkét világ legjobbika
A Sora az OpenAI első szöveg-videó, kép-videó, videó-videó modellje, egy „világszimulátor”, mely a leglenyűgözőbb videókat generálja, amiket valaha láttunk, szó szerint mérföldekkel megelőzve minden mást. A ChatGPT-hez hasonlóan internetes adatokat látott, de videókból és azok leírásaiból, hogy megtanuljon akár 1 perces, nagy felbontású videókat készíteni. A ChatGPT-vel való hasonlóság azonban nem ér itt véget. Ahogy az LLM a szöveget tokenekként kezeli (átlagosan 3-4 betűből álló csoportok), a Sora a képfoltokat is tokenekként kezeli, „vizuális téridőfoltoknak” nevezve őket.
De mit jelent ez egyáltalán?
Dióhéjban, a Sora a videókat úgy kezeli, hogy két elemre bontja őket:
- Képkockák: Mint minden más videomodell esetében, a videók felépítésének legegyszerűbb módja, ha képkockák (statikus képek) összekapcsolásaként tekintünk rájuk, ahogyan azt a Google Lumiere is teszi.
- Vizuális foltok: Minden egyes képkockát ezután pixelcsoportokra bontunk. Ezek a foltok azonban 3D-sek, mivel egynél több képkockát rögzítenek, így az időt is figyelembe tudjuk venni.
Ezután, attól függően, hogy milyen méretarányú legyen a kimenet, ezeket a foltokat összeillesztjük a videó létrehozásához.
Hogyan generálják a videókat?
Nem meglepő módon diffúzió segítségével. Ahogy már sokszor leírták, a diffúzió a képek és videók szintézisének standard megközelítése. A képzés során a képhez fokozatosan zajt adunk hozzá. Ezután a modellnek meg kell jósolnia, hogy mennyi zajt adtak hozzá, ki kell vennie, és rekonstruálnia kell az eredeti képet az azt leíró adott szöveges feltétel alapján, például „egy nyugodt macska portréja”. Ily módon a következtetés során a modell kap egy „zajvásznat”, és képes új képeket létrehozni az adott szöveges leírás alapján.
Gondoljunk a diffúzióra úgy, mint egy hasonló feladatra, mint amit egy művész, például Michelangelo vagy Bernini csinálna egy márványtömbbel. „Kivették” a „felesleges” márványt, hogy feltárják a eleve benne rejlő szobrot. Oké, ennek van már így értelme, de hogyan is működik ez valójában?
A modell képzésének titka
A képzés során a modell két dolgot kap: egy videót és egy szöveges leírást a videóról. Mivel internetes méretű adatokra volt szükségük, egy külön videófeliratozó modellt képeztek ki, mely több millió videót vett fel, és szöveges leírást készített róluk ahelyett, hogy kézzel végezték volna el ez a sziszifuszi feladatot. Ezután a folyamat négy lépést követ: tömörítés, foltozás, diffúzió és dekódolás.
Bontsuk ki az egyes lépéseket. Először a videót egy vizuális kódoló segítségével tömörített, látens reprezentációvá alakítjuk. De mi is az a reprezentáció? Más néven „beágyazás”, mely egy bemenet (szöveg, kép, videó) számvektor formájában történő reprezentációja. Ez a vektor sűrű, ami azt jelenti, hogy megragadja a mögöttes fogalom szemantikáját. A kulcs az, hogy a szemantikailag hasonló fogalmakat reprezentáló vektorok is hasonlóak lesznek. Ez lehetővé teszi a gépek számára, hogy e vektorok közötti távolság kiszámításával megértsék a rokonságot. Így minél közelebb van két reprezentáció, például a „macska” és a „kutya” vektorai, annál hasonlóbbak a fogalmak a modell szerint.
Ez a hasonlósági elv nem csak a Sora, hanem ma már szinte minden határmodell, így a ChatGPT vagy a Gemini alapját képezi.
Ennek az átalakításnak azonban más következményei is vannak: ez pedig az annyira óhajtott hatékonyság. A Sora tömörített formában dolgozik videókkal, így a folyamat sokkal olcsóbbá válik. A reprezentációs térben való munka segít a modelleknek abban, hogy a kép minden egyes pixelének vizsgálata helyett arra figyeljenek, ami számít. A reprezentációs térben való munka (mivel ezek a vektorok a mögöttes fogalmak magas szintű jelentését rögzítik), arra kényszeríti a modellt, hogy megtanulja megérteni ezeket a szemantikákat. Lényeges azonban rámutatni, hogy ez egy téridő-sűrítés. De mit is jelent ez?
Tér és idő tömörítése
Nos, először is, mivel a Sora egy transzformátor, tudjuk, hogy a videókat a figyelemmechanizmus segítségével dolgozza fel. Nagyon leegyszerűsítve, a figyelem az a folyamat, amelynek során a tokenek „beszélnek”, hogy frissítsék az egyes tokenek jelentését a „kifejezett jelentésük” és a környezetük alapján. Túl absztraktnak hangzik, de intuitív módon megérthetjük ezt a folyamatot, ha arra gondolunk, hogyan működik a ChatGPT. Ha a „A folyó partja” és a „Megyek a bankba pénzt felvenni” mondatokra gondolunk (angolul a bank mindkettőt jelenti, és a ChatGPT natív nyelvén gondolkodunk most: “The river bank”,“I’m going to the bank to take out some money”), a „bank” szónak különböző jelentése van a környező kontextustól függően. Tehát amit a ChatGPT tesz, hogy kitalálja, mit jelent a bank minden esetben, az a figyelemmechanizmus végrehajtása, hogy minden szó figyeljen a többire. Így a „bank” jelentését nemcsak a definíciója alapján, hanem a környezetében lévő kontextusban is kitalálja, vagyis a „folyó” azt jelzi a ChatGPT számára, hogy a „bank” itt folyópartot jelent.
A Sora esetében azonban a figyelemmechanizmus a képkocka szintjén valósul meg, ami a vizuális foltokat egymással beszélgetésre készteti, valamint a szekvencia szintjén is, ami a képkockákat más képkockákkal „folytat diskurzusokat”. Az előbbi jelzi, hogy mi történik az adott képkockában, az utóbbi pedig Sora intuíciót ad arról, hogy mi történik több képkockán keresztül. Egyszerűen fogalmazva, az egyik azt mondja, hogy egy képen egy kutya van, a másik pedig azt, hogy mit csinál a kutya a képkockák teljes sorozatában, azaz a videóban. Ezután ezt a látens reprezentációt a korábban említett vizuális téridőfoltokra bontjuk, létrehozva a fenti képen látható kockaszerű alakzatokat, hogy a Sora bármilyen méretű, időtartamú és felbontású videót tudjon generálni. Fontos megjegyezni, hogy ez a token-alapú mechanizmus az egyik legfontosabb különbség a Sora és a Lumiere között. Bár a Lumiere is egy diffúziós transzformátor, a modell a videó minden egyes képét egyszerre generálja. Itt a Sora minden képet foltok összekapcsolásával épít fel.
Nem világos, hogy a képek teljes méretű vásznak helyett foltok alapján történő generálása jobb megközelítés-e. Más szóval, nem tudjuk kategorikusan ennek a foltozási technikának tulajdonítani a Sora elképesztő teljesítményét. Valójában úgy tűnik, hogy a legfontosabb megkülönböztető tényező itt a felhasznált adatok minősége és mérete. A Shutterstock és az OpenAI júliusban kötött megállapodása most már sokkal több értelmet nyer. Azzal is érvelhetünk, hogy ez sokkal rugalmasabbá teszi a Sorát a generált videók méretét és időtartamát tekintve. Továbbá, miután a foltokat a kívánt elrendezésben elhelyeztük, a korábban ismertetett diffúziós folyamatot alkalmazzuk a zajos foltokra, hogy létrehozzuk az új videó reprezentációit. Végül egy dekóder veszi ezeket a „tiszta” új foltokat, és dekódolja vissza a pixeltérbe, így kapjuk meg a videókat. De hihetetlen módon ez még nem minden, mivel a Sora multimodális.
Képek és videók többszörös kondicionálása
A Sora képekre és videókra is kondicionálható, ami azt jelenti, hogy használhatjuk képek animálására, videószerkesztésre, videók interpolálására és még sok másra. De hogyan teszi lehetővé a Sora a többszörös kondicionálást? Ezt nem részletezik, de ez nem újdonság. Egy népszerű módszer az „osztályozó nélküli diffúzióvezetés”, ahol a modellt úgy képzik ki, hogy kimeneteket generáljon egy adott feltétel figyelembevételével és anélkül is. Más szóval, néha megmondják neki, hogy mit generáljon egy szöveges leírás vagy egy kép segítségével, máskor pedig egyszerűen ráveszik, hogy feltétel nélkül generáljon „valamit”. Így a modell megtanul rugalmasan alkalmazkodni minden helyzethez, és több feltételes generálási folyamatra általánosít. Ráadásul, ahogy ez egy paraméter beállításával ad irányítást, így szabályozható, hogy a kimenetnek mennyire kell figyelnie egyik vagy másik feltételre. Például Michelangelo Dávidjáról készült képen, attól függően, hogy milyen értéket adtunk az egyes feltételeknek, mint például a „Kiborggá változtatni” szöveges leírásnak vagy az eredeti képnek, minél nagyobb súlyt adunk a szöveges leírásnak, annál kevésbé hasonlít az eredeti képre és annál inkább egy kiborgra, és fordítva.
A transzformátor diadala
Összességében Sora egy olyan modell, mely a képzés során hatalmas mennyiségű videót és a hozzá tartozó leírásokat vett fel. Ezután, akárcsak bármely más transzformátor, például a ChatGPT, a figyelem mechanizmusát használja. Megérti, hogy mi történik mind a képkocka szintjén (a térbeli jellemzők megértéséhez). és a képkocka-sorozat szintjén is, hogy megértse a különböző képkockák közötti kapcsolatokat. Ily módon felépíti a látottak megértését, miközben ezt az információt tömöríti, hogy hatékonyabbá tegye a folyamatot.
Ezután, miután szép intuícióval rendelkezik arról, hogy miről szól a videó, összerakja a „vásznat” azáltal, hogy ezt a tömörített videót az eredeti (vagy a létrehozandó) videó minőségétől, méretétől és időtartamától függően a kívánt foltos szerkezetre bontja. Végül ezen a foltozott, zajos vásznon diffúziót hajt végre, lassan eltávolítva a felesleges zajt a képről (mintha az Instagram-képünkből próbálnánk kivenni a szűrőt), az eredeti szöveges leírás segítségével, amely „útmutatóként2 szolgál ehhez a zajmentesítési folyamathoz, jelezve, hogy mit kell kiadni. És meg is van az eredeti videónk.
Sőt, a végrehajtás ideje alatt, a fent említett gyakorlat elvégzésével a modell annyira jártassá vált ebben a »denoising« folyamatban, hogy képes egy véletlenszerűen összefoltozott vászonról elindulni, és a mi általunk megadott szöveges feltétel segítségével új videókat létrehozni.
Az MI-videók monetizációja
Az MI által generált videó a következő nagy pénznyerő kiskapu lehet az online alkotók számára. Úgy hangzik, mint egy tündérmese?
Az OpenAI legújabb gyöngyszeme forradalmasít(hat)ja a tartalomkészítés nagy játékát, és ez lehet a következő nagy pénznyerő kiskapu.
Ha még nem vették volna észre, a videó mindenben benne van ma, ha az online marketingről, befolyásról és ennek pénzzé tételéről van szó. YouTube, TikTok, Instagram, Facebook, online tanfolyamok: ezeket mind a videós tartalmak uralják. Keressünk valamire a Google-on, és valószínűleg videókat találunk az első tíz találat között. Lehet, hogy a tartalom a király, de a videó a király (vagy királynő) vára. De videókat készíteni nehéz. Jó videókat készíteni még nehezebb. Megfelelő felszerelésre, sok időre, vágási készségekre lenne szükség. Ez elég ahhoz, hogy a legtöbb alkotó filmes reményeit elpusztítsa.
A Sora lerövidítheti az ötletelés és az alkotás közötti szakadékot. A mesterséges intelligencia elvégzi helyettünk a nehéz digitális munkát. Az alábbiakban néhány lehetséges jövőbeli üzleti alkalmazását mutatjuk be.
Egyedi videókészítési szolgáltatások: Egyedi videókészítési szolgáltatásokat kínálunk olyan vállalkozások és magánszemélyek számára, akik egyedi tartalmat keresnek, mely kiemelkedik a közösségi médiaplatformokon vagy személyes használatra. Szabjuk a videókat konkrét témákra vagy iparágakra, például utazásra, oktatásra vagy termékmarketingre.
Oktatási tartalomcsomagok: Olyan oktatási tartalmak fejlesztése és értékesítése, melyek leegyszerűsítik az összetett témákat. Ezek célcsoportjai lehetnek iskolák, korrepetálási szolgáltatások vagy online oktatási platformok, melyek a tanulási élményt fokozó, magával ragadó videóanyaggal látják el őket.
E-kereskedelmi termékvideók: Készítsünk magával ragadó termékbemutató vagy „unboxing” videókat e-kereskedelmi webhelyek számára. Ezek a videók jelentősen növelhetik a konverziós arányokat, mivel dinamikus képet nyújtanak a termékekről.
Digitális marketingkampányok: Kínáljunk videótartalom-készítést digitális marketingcsomagok részeként márkák számára. Ezek a videók felhasználhatók reklámkampányokhoz, közösségi médiatartalmakhoz vagy a webhelyek elkötelezettségének fokozásához.
Előfizetéses tartalomplatformok: Indítsunk előfizetéses szolgáltatást, mely exkluzív videotartalmakat kínál bizonyos témákról vagy érdeklődési körökről. Ez olyan speciális közönséget célozhatunk meg, mely a mainstream platformokon nem elérhető tartalmakat keres.
Interaktív videótanfolyamok: Átfogó videótanfolyamok kidolgozása különböző témákban. A hagyományos videótanfolyamokkal ellentétben a Sora segítségével interaktív elemet adhat hozzá, így a tanulás még vonzóbbá és személyre szabottabbá válik.
Tudományos és technológiai magyarázó videók: Olyan videók készítése, melyek az összetett tudományos és technológiai fogalmakat érthető szegmensekre bontják le, és a diákok, a szakemberek és az e témák iránt érdeklődők számára készültek.
Vállalati képzési és beszoktatási videók: Kínáljunk szolgáltatásokat vállalkozásoknak, hogy testre szabott képzési és beszoktatási videókat készítsenek az új alkalmazottak számára, biztosítva a szervezeten belüli egységes képzési élményt.
Virtuális eseményközvetítés: Virtuális események, konferenciák vagy webináriumok számára magával ragadó tartalmak létrehozása. Ez magában foglalja a promóciós videókat, az esemény kiemelt eseményeit, vagy akár a virtuális terekben zajló események szimulált élő közvetítéseit.
Valós idejű hírek és elemzések: A Sora segítségével gyorsan készíthetünk videókat, melyekben összefoglalja a legfrissebb híreket, elemzést vagy kommentárt kínál az aktuális eseményekhez. Ez értékes forrás lehet a közönség tájékoztatásához a gyorsan változó hírvilágban.
Nyilvános beszéd és prezentációs tréning: Olyan videók készítése, melyek tippeket és tréningeket kínálnak a nyilvános beszéd és a prezentációs készségek terén. Ezek felbecsülhetetlen értékűek lehetnek a kommunikációs képességeiket fejleszteni kívánó szakemberek számára.
Motivációs és inspirációs videók: A nézők motiválására és inspirálására tervezett tartalmak létrehozása. Ez a személyes sikertörténetektől a motivációs beszédekig terjedhet, bátorítást és pozitív üzeneteket kínálva.
Technológiai ismertetők és bemutatók: Készítsünk videókat a legújabb kütyük, technológiai termékek vagy szoftverek ismertetéséről. Ez magában foglalhat kicsomagolós videókat, első benyomásokat és részletes értékeléseket.