(Kiemelt kép: Unsplash )
A generatív mesterséges intelligencia olyan MI modell, mely hatalmas adathalmazokon betanítva képes szöveget, képeket, hangot és videót generálni. A generatív MI legegyszerűbb bemenete (az úgynevezett prompt) egy szöveges leírás, ami alapján egy előre betanított transzformátor (GPT) képes egy bekezdést írni, egy szövegből képet készítő modell, például a Stable Diffusion képet létrehozni, a MusicLM zenét létrehozni, az Imagen Video pedig videót gyártani. Ez a technológia demokratizál(hat)ja a tartalomkészítés minden ma ismert válfaját. A videók készítése esetében jobban kiegyenlítheti a mai játékteret, mint ahogyan azt az okostelefonok és a közösségi videoplatformok már eddig megtették. Alapvetően fogja megváltoztatni a videotartalom-ipart is, akár akarják a korifeusai, akár nem. Gondoljunk csak a Netflixre, a TikTok-ra és a YouTube-ra, e terület mai sztárjaira. Bár mindegyikük egyedi a tartalom típusa és üzleti modellje tekintetében, mindhárom platform úgy működik, hogy az alkotókat ösztönzik a vonzó tartalmak fejlesztésére, a megfelelő filmekhez a megfelelő fogyasztót próbálják üzletileg is párosítani, és folyamatosan azonosítják és ellenőrzik és mérik is, hogy milyen tartalom ösztönzi a nagyobb elköteleződést. Ezek az elemek mindegyike egymásra épülve hozta létre azt a „lendkereket”, mely mindhárom platformnak segített abban, hogy nagy sebességgel gyarapodjanak a nézőik. Ez a sikerszéria azonban kezd veszíteni a lendületéből. A generatív mesterséges intelligencia tovább rontja a problémáikat azzal, hogy új videótartalom-előállítási értékláncot hozhat most gyorsan létre.
Miért van bajban a Netflix, a Tiktok és a YouTube?
A Netflix, a TikTok és a YouTube a tartalom relevanciájának és elkötelezettségének meghatározására való képességüknek köszönhetően teljesített jól eddig. Mindannyian hatalmas mennyiségű adattal rendelkeznek arról, hogy ki mit és hogyan néz és mikor. Sikerük ellenére a „mi” meghatározása még mindig két komoly kihívást jelent:
Hasznos, pontos jellemzők kinyerése
Ha egy videót megrendelésre készítenek (ahogyan az a Netflixnél történik), akkor ismertek a kategóriák, melyekbe beletartozik: műfaj, szereplőgárda, időtartam stb. Ezek azonban tág és néha szubjektív címkék, ami megnehezíti, hogy egy algoritmus tanuljon belőlük. Természetesen a videó számos jellemzője meghatározható; a forgatókönyv, a forgatási lista és más gyártási jellemzők pontosan ismertek. Az ezen adatok felhasználására tett kísérletek azonban a másik véglethez vezetnek: túl sok információ kell egyetlen videó leírásához.
Az alkotás akadályainak leküzdése
A zárt, hollywoodi stílusú tartalomgyártás drága és lassú. A Netflix 2022-ben 17 milliárd dollárt költött tartalomgyártásra. Greg Peters, a Netflix társ-vezérigazgatója szerint: „Ha minden héten szállítunk egy Wednesday-t, ha minden héten szállítunk egy Üveghagymát, akkor a nézők túlnyomó többségét visszaszerezzük”. Nyilvánvaló, hogy a jelenlegi gyártási modelljükkel még nem tudnak minden héten szállítani egy blockbustert. Az alternatív modell a TikTok és a YouTube által használt nyílt, felhasználók által generált tartalomkészítés. Ez ugyan viszonylag olcsó és gyors, de olyan ösztönzőket kell beállítani, amelyek három (néha egymásnak ellentmondó) célt egyensúlyba hoznak: ezek a befolyásos alkotók megtartása, az új alkotók motiválása, valamint a nézőbázis megtartása és növelése.
Mivel a platformok ezen a téren igyekeznek megfelelő mennyiségű vonzó tartalmat generálni viszonylag kis számú népszerű alkotótól, egymást ösztönző háborút váltanak ki. A TikTok például állítólag „fűt-fát” ígérve folytat kampányokat a videók „manuális” népszerűsítésére. A YouTube Shorts eközben lejjebb vitte a lécet az alkotók számára, hogy bevételhez jussanak. A TikTok legalább 100 000 követőre vonatkozó követelménye helyett csak 1000 feliratkozóra van szükségük már. Ez a két kihívás részben magyarázza a rövid életű Quibi streaming platform kudarcát. A Quibi mindhárom platform gyengeségeit egyetlen applikációban próbálta egyesíteni. Megduplázta a zárt, hollywoodi stílusú gyártási rendszert azzal, hogy drága alkotókat és színészeket bérelt fel. Ahelyett, hogy az egyéni alkotóknak adta volna meg a lehetőséget, ahogyan azt a YouTube és a TikTok tette, a Quibi a márkás alkotókra és színészekre tette fel mindent. Cserébe gyenge (valószínűleg másodosztályú) tartalmakat kapott, melyek egyszerűen nem működtek. Ez azért volt, mert az ezredfordulósokat és a Z generációt célozta meg, de anélkül, hogy az alkotókat ezekben a korcsoportokban támogatta volna. Emellett meglepő módon nem használt mesterséges intelligenciát annak meghatározására, hogy milyen tartalmat készítsen (bár MI-t használt arra, hogy a nézőknek ajánlja, mit nézzenek). Egyetlen ember által vezérelt platform sem tudta még leküzdeni ezt a két kihívást. A megoldás azonban létezhet. A generatív mesterséges intelligencia meg fogja változtatni, hogy milyen videotartalmakat kell előállítani, hogyan kell előállítani azokat, és kinek kell megmutatni, és ezzel egy teljesen újfajta, mesterséges intelligenciával támogatott platformot fog bevezetni a piacra.
Egy mindenható generatív platform felé
Képzeljük el a következő forgatókönyvet. Egy alkotó beírja ezt a szöveges leírást: Két ember ül egy budapesti dizájner kávézóban. Odakint havazik. Egyikük beleharap egy szelet trappista sajtba, és megjegyzi: „A ló meghal és a madarak kirepülnek”. Egy hiperrealisztikus, élőszereplős videó (hanggal) szinte azonnal elkészül, és több milliárd nézőnek vetítik le. Nemcsak azt tudjuk, hogy ki mennyi ideig nézte, ki milyen részeket hagyott ki, a kedveléseket, megosztásokat, kommenteket, kereséseket és a videóval kapcsolatos összes platformon kívüli vitát, hanem azt is, hogy pontosan milyen inputot használtak a videó létrehozásához. Ez a forgatókönyv egy csapásra megoldja a meglévő videoplatformok két kihívását. Egyrészt sokkal pontosabb leírást ad a videóról (a beviteli szöveges promptot), másrészt nagymértékben csökkenti az alkotás akadályait (olyan egyszerű, mintha csak a „képzeletét” gépelné be az „alkotója”). Nem kell a Davinci Resolve-val és Fusion-nal vesződni, de még a drága színészekkel sem bajlódni. Ez úgy hangzik, mintha valami „mágia” lenne és valóban, még nem is létezik, de csak három mesterséges intelligenciaprogram együtteséről lenne szó. Az MI 1 generálja a videót a szöveges bemenet alapján. MI 2 összepárosítja a videót a megfelelő nézőkkel. Az MI 3 a kapott elkötelezettséget használja fel arra, hogy az alkotóknak útmutatást adjon, mit készítsenek a továbbiakban. Ennek a gyártási modellnek egy kezdetlegesebb változata már most is készít tartalmakat, talán a legjelentősebb a Seinfeld-paródia sitcom, a „Nothing, Forever – AI Seinfeld”, mely generatív MI-t használ a forgatókönyve elkészítéséhez, és közel 100 000 követője van már, hiába készíti gépi elme sokat bánatára.
A generatív MI által vezérelt videoplatform csökkenti az értékteremtés akadályait azáltal, hogy az alkotóknak iránymutatást ad arra vonatkozóan, hogy mi az, ami elkötelezettséget vált ki, és releváns tartalmat mutat a nézőknek is. Ugyanakkor a csökkentett akadályok és a jobb útmutatás viszont lehetővé teszi az alkotók számára, hogy növeljék a cégen kívüli értékteremtést. És mivel a releváns tartalom létrehozása és megtekintése között mindkét oldalon szinte nulla a „frikció”, az alkotók egyben nézők is, és vice versa. A határ még inkább elmosódik, ha a néző beír egy keresést, és ez a beírt szöveg egy új videó indítószövegévé válik. A gazdasági hatása óriási lehet. Hagyományosan egy platformon a nagyon népszerű tartalmak kis százaléka ellensúlyozza a kevésbé népszerű tartalmak nagy hányadát. Egy generatív mesterséges intelligencia platform fel fogja turbózni a népszerű tartalmak sikerét, mivel az alkotók az algoritmikus ajánlások segítségével fel lesznek készítve arra, hogy mit is készítsenek legközelebb. Ugyanakkor az alkotás sokkal alacsonyabb akadályai javítani fogják a fennmaradó részek jövedelmezőségét.
Hogyan fognak alkalmazkodni a vezető inkumbens platformok? A három közül a Netflix van a leginkább „beleragadva” a saját üzleti modelljébe, és valószínűleg nehezen fog tudni drámaian változtatni rajta könnyedén. Sokáig ellenállt a hirdetésekkel támogatott modellnek, és csak nemrégiben mozdult el ebbe az irányba. Ma a TikTok áll a legközelebb a generatív MI platformhoz az üzleti modell, a képességek és a rugalmassága tekintetében ahhoz, amit mi jövendőnek látunk, de az Egyesült Államokban szabályozási ellenőrzés alá került vagy be is tilthatják hamarosan. A YouTube kedvező helyzetben van, mivel a Shorts bevezetésével és az alkotói ösztönzők javításával igyekszik keményen versenyezni a piacon. Emellett a Google mesterséges intelligencia képességei is a kulisszák mögött könnyedén támogat(hat)ják. A Google azonban már megmutatta, hogy a generatív mesterséges intelligencia területén lassan mozdul el mindig és meglehetősen „bénán” (lásd a Bard bevezetés) kereskedelmi szempontból.
Ez még csak a kezdet?
A generatív mesterséges intelligencia technikai fejlődésének és tudatosságának közelmúltbeli felgyorsulása egyszerűen elképesztő. Az biztos, hogy még nem áll rendelkezésünkre az a technológia, mely hiperrealisztikus, élőszereplős videót generálna szöveges inputból, és ennek a technológiának megjelenése kulcsfontosságú lesz majd az új platform megvalósításához. Még ha rendelkezésre is állna majd, a szöveges inputok gyakran nem lesznek képesek elég pontos meghatározást adni a videóról, és valószínű, hogy a platform a hasonló, de nem azonos videók sokaságát fogja generálni, ahogy az alkotó és a néző hasonló szövegeket is állít össze. És ahogy ez az Új Gyártási MI Metódus megtanulja a megnyerő tartalom létrehozásának kulcsait, hogyan kezeli majd a platform és az alkotók közötti érdekellentétet? Hogyan fogja megakadályozni az engedély nélküli mélyhamisításokat és az elkerülhetetlenül bekövetkező propagandát és hamis információkat? E fenntartások ellenére nagyon valószínű, hogy a generatív mesterséges intelligencia olyan új videótartalom-platformokat fog működtetni, melyek felváltják vagy legalábbis kiegészítik a Netflix, a YouTube és a TikTok jelenlegi „szentháromságát”. A generatív MI technológiát nemcsak a tartalom létrehozására fogják használni, hanem a platform, az alkotók és a fogyasztók közötti dinamika működtetésére is. Szinte magától értetődik, hogy mindez nem jár technológiai bizonytalanság és etikai kockázatok nélkül. És persze a videó csak egy olyan terület, ahol ilyen gyors változásokra számíthatunk. A művészet, a zene és az írott szó számos más kreatív területe is drámai változások és új üzleti lehetőségek előtt áll azok számára, akik felismerik, hogy mi érett a „bomlasztásra” vagy akik a generatív mesterséges intelligenciát a saját területük védelmére akarják majd felhasználni.