Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Szintetikus média: az „igazat” mondd, ne csak a valódit

MEGOSZTÁS

A tisztán szintetikus média radikálisan felgyorsítja a tartalom létrehozásának és terjesztésének folyamatát. Hozzáférhetősége és interaktivitása a digitális média új, izgalmas korszakát indította el, melyben a kreativitás, a belátás és a képzelet határozza meg már csak a tartalom terjesztését a fizikai tér által szabott korlátok helyett. A szintetikus média új formái elmoshatják a fizikai és a digitális környezet közötti különbséget. Ez az új kreatív kifejezési forma erőteljes felhasználói élményeket szabadíthat fel, melyek a média és az emberi érzékelés közötti új és dinamikus kapcsolatokra épülhetnek már.

(Kiemelt kép: Unsplash)

Amikor az MI által generált szintetikus média új világáról beszélünk, akkor egy olyan térre gondolunk, mely egyesíti világunk leghatásosabb erőit: az élő videót, a vizuális tartalmakat és a hangot, valamint az ezeket működtető legfejlettebb kurrens technológiai platformokat. A szintetikus média a mesterséges intelligencia (MI) segítségével előállított virtuális média új formája. Magas fokú realizmus és magával ragadó élményszerűség és immerzivitás jellemzi. Továbbá a szintetikus média általában megkülönböztethetetlen ma már más valós médiumoktól, így a felhasználói számára nagyon nehéz megkülönböztetni „mesterséges” jellegét. Lehetőség van benne soha nem létezett arcok és helyek generálására, sőt, akár az emberi beszédet utánzó digitális hangú avatár „teremtésére” is. A szintetikus média kutatása hosszú múltra tekint vissza: az első próbálkozások az 1950-es és 1960-as évekre nyúlnak vissza, amikor algoritmikus és generatív kísérleteket végeztek. Egészen az 1990-es évek elejéig kellett várni az áttöréshez, amikor is a digitális számítási teljesítmény növekedni kezdett, és az internet megjelenésével elérte egy kritikus pontot. 1997-ben a Video Rewrite: Driving Visual Speech with Audio című tanulmány volt a fordulópont (Bregler, Covell és Slaney). Ők dolgozták ki a Video Rewrite programot, mely az első volt, ami ezeket a technológiákat ötvözte (a korábbi kutatásoknál meggyőzőbb szintetikus arcokat és beszédet fejlesztettek ki). Ezeket a nóvumokat olyan hollywoodi kasszasikerekben használták később fel sikeresen, mint a Star Wars: A klónok támadása (2002) és a Pókember 2 (2004).

Szintetikus média: az „igazat” mondd, ne csak a valódit
A szintetikus média általában megkülönböztethetetlen ma már más valós médiumoktól, így a felhasználói számára nagyon nehéz megkülönböztetni „mesterséges” jellegét (Fotó: Unsplash)

Hogyan működik a szintetikus média?

A mesterséges intelligenciát minden iparágban és tudományterületen alkalmazzák ma már (a ChatGPT előtt is létezett már jócskán ugyanis:)). A gépi tanulás különböző formái közül azonban a mélytanulás, az ami számos mesterséges intelligencia-alkalmazást tesz lehetővé azáltal, hogy megtanítja a számítógépeket arra, hogyan „gondolkodjanak” majdnem úgy, mint az emberek, és hogy hogyan hozzanak meg intelligens döntéseket. Bár a technológiának számos felhasználási területe van már a különböző iparágakban, a szintetikus média lesz az, ami az egyik legjelentősebb digitális forradalmat hozza majd el számunkra. A mély neurális hálózatok minden eddiginél erősebbek lettek mára, a generatív adverzális hálózatok (GAN-ok) segítettek ezt lehetővé tenni azzal, hogy a meglévő képekből tanulnak, miközben képesek egyben teljesen újakat is létrehozni. Mivel a GAN-kimenetek természetesnek és az eredeti képektől megkülönböztethetetlennek tűnnek, olyan szintetikus médiát tesznek lehetővé, melyet nehéz megkülönböztetni már a valós médiától, különösen a számítógépes látás és a képfeldolgozás alkalmazásaiban. A GAN-ok olyan gépi tanulási technikák, melyek lehetővé teszik a számítógépek számára, hogy valósághű tartalmakat hozzanak létre. Ma már a mesterséges intelligencia területe rohamos ütemben fejlődik, néhány évvel ezelőtt még sci-finek tűnt, hogy számítógépeket képezzünk ki arra, hogy adatokból tanuljanak. Ma már valóság ez, és a kutatók hatalmas lépéseket tesznek olyan rendszerek kifejlesztése terén, melyek képesek megtanulni olyan feladatok elvégzését, melyeket korábban lehetetlennek gondoltak a „gépi elmékről”. Ugyanakkor a gépi tanulás és a mélytanulás terén elért eredmények lehetővé tették, hogy a számítógépes látás algoritmusait nagy méretű képadathalmazokon képezzék ki. Ennek eredményeképpen a mai neurális hálózatok olyan dolgokat is képesek meglátni a fényképeken, melyeket az emberi szem sem képes érzékelni. Ezek a képességek az elmúlt években a mesterséges intelligenciával működő rendszerek lenyűgöző új alkalmazásaihoz vezettek, beleértve a videojátékokat, az autonóm gépjárműveket és drónokat, az arcfelismerést és még sok mást. Ugyanakkor aggodalmakat is felvetnek a magánélet védelmének lehetséges megsértésével és etikai dilemmákkal kapcsolatban.

Szintetikus média: az „igazat” mondd, ne csak a valódit
A gépi tanulás és a mélytanulás terén elért eredmények lehetővé tették, hogy a számítógépes látás algoritmusait nagy méretű képadathalmazokon képezzék ki (Fotó: Unsplash)

A hitelesség illúziójának előnyei

A szintetikus médiaeszközök intelligens és hatékony módszerekkel találják fel újra a munkánkat, és olyan minőségi médiaélményeket produkálnak, amilyeneket soha nem gondoltunk volna. Fő előnyei a következők: termékei gyorsan, minimális emberi közreműködéssel jönnek létre, különböző témákat fedhetnek le, és a világ bármely pontján, bármely közönség igényeinek megfelelően módosíthatók rögvest. Gyakran kényelmesebbek, mivel a nap 24 órájában elérhetőek, és több interaktív elemet is csatolhatunk hozzájuk. Mivel dinamikusak, kevésbé valószínű, hogy unalmasak leszek egy idő után. A szintetikus média tartalmazhat írást, zenét, rajzokat, festményeket, hangot vagy vizuális elemeket is. Ez a rugalmasság lehetővé teszi a médián keresztül történő történetmesélés változatos új módozatait. A folyamat kreatívabb és teljesebb lehet, mint más kifejezési formák, mert lehetővé teszi az alkotó számára, hogy többféle módon fedezze fel benne saját kreativitását. A szintetikus média nagy fokú rugalmassága révén különböző platformokon valósítható meg, ezért ma már a játékok mellett főként az ICT vállalatok alkalmazzák alkalmazásokban és weboldalakon, VR/AR élményekben és még sok más digitális csatornán. Rendkívül „alkalmazkodó” formává vált, mely számos iparágban, például a marketing, az oktatás, az újságírás, a szórakoztatás és a művészetek területén is széles körben használható. Mivel a hitelesség illúzióját keltheti, ez a médiatípus lehetővé teszi a cégek számára, hogy színészek fizetése vagy hivatásos fotósok vagy videósok felbérlése nélkül kapcsolódjanak közönségükhöz is.

Szintetikus média: az „igazat” mondd, ne csak a valódit
A folyamat kreatívabb és teljesebb lehet, mint más kifejezési formák, mert lehetővé teszi az alkotó számára, hogy többféle módon fedezze fel benne saját kreativitását (Fotó: Unsplash)

Szintetikus videók

A szintetikus videók lehetővé teszik a fotózás és a videózás világának kreatív kombinálását. Sokféle formát öltöttek, de az egyik legnépszerűbb típus az úgynevezett „deepfake”. Ez tulajdonképpen az arccsere, ahol az egyik személy arca egy másikét helyettesíti (mint például az a klip, melyben Joe Biden és Donald Trump arcát cserélik fel a Bosszúállókban). A Face reenactment a szintetikus videók egy másik formája, melyben a forrásszínész irányítja a filmbéli célszínész arcát. Ez a technológia tette például lehetővé, hogy a 2019-es malária elleni kampányhoz különböző világvezetőket hallhassunk John Lennon Imagine című dalát énekelni, David Beckhamet pedig kilenc másik nyelven beszélni. Az egyik legfontosabb másik újdonság a szövegből videó generálása (CogVideo, Make-A-Video és társai), itt egy szövegből videót készít a mesterséges intelligencia, mely lehetővé teszi a számítógépek számára, hogy rövid, összefüggő videoklipeket generáljanak pusztán a szöveges leírásokból. Ez már egy sokkal jelentősebb és főként látványosabb lépés a közelmúltbeli, jó minőségű szövegből képet készítő MI modellekhez képest.

Szintetikus média: az „igazat” mondd, ne csak a valódit
A szintetikus videók lehetővé teszik a fotózás és a videózás világának kreatív kombinálását (Fotó: Unsplash)

Mesterséges hangtechnológia

Egyre többen használnak audio-technológiát vállalkozásuk építéséhez, például podcastokat, közösségi média influenszereket, online rádióállomásokat és reklámkampányokat. Bármelyik felvételének folyamata azonban időt, pénzt és erőfeszítést igényel (beleértve az előadókat, művészeket, stúdiókat, berendezéseket stb.). Így a mesterséges hangtechnológia, például a szövegből beszéddé (TTS) és a hangklónozás nagyon népszerűvé vált az utóbbi időben. A Resemble.ai például lehetővé teszi, hogy a szereplők hangját klónozva digitális avatárokat hozzunk létre, és filmekben is használjuk őket. Az intrótól az outróig, a Respeecher hangklónozási technológiája megkönnyíti a kiváló minőségű hangok létrehozását, szintén erőfeszítés nélkül. Az MI-vel támogatott megoldások mára tökéletesek lettek a filmkészítők és más tartalomkészítők számára is. De megemlíthetjük a Voiseed-et is, ez a megoldás az audiotartalmakat emberibbé teszi azáltal, hogy olyan hangszíneket hoz létre, mely hiteles, természetes nyelven, érzelmek és értelem segítségével kommunikál (becsapva a hallgatóit, mintha tényleg egy hús és vér ember beszélne). Végül, de nem utolsósorban a Deepdub egy izraeli posztprodukciós cég, mely nemzetközi, többnyelvű audio- és videomédia lokalizációra specializálódott, innovatív megoldást kínálva a globális piacokra szánt tartalmak előállításának kihívásaira is.

Szintetikus média: az „igazat” mondd, ne csak a valódit
A Resemble.ai például lehetővé teszi, hogy a szereplők hangját klónozva digitális avatárokat hozzunk létre, és filmekben is használjuk őket (Fotó: Unsplash)

Az innováció kultúrája a munkahelyeken

A szintetikus médiaeszközök ma még nehezen számszerűsíthető előnyöket nyújtanak, viszont nagyban befolyásolhatják azt, hogy hogyan érzékeljük a teljesítményt, növelhetik a munkavállalók termelékenységét, javíthatják a munka minőségét, és elősegíthetik az innováció kultúráját: vagyis potenciálisan versenyképesebbé tehetik az egyes szervezeteket. A szintetikus médiaeszközök lehetővé teszik komplex adatvizualizációk vagy akár videók létrehozását, mindössze egy „táblázatkezelő” segítségével is. De arra is használhatók, hogy ötleteket próbáljanak ki velük, mielőtt életre keltenék azokat egy-egy fejlesztési folyamat során vagy pilot projektként. Ezenkívül a különböző nyelveket beszélő ügyfelekkel való kommunikáció során a szintetikus médiaeszközök segíthetnek a céges kommunikációs gátlásokat leküzdeni. Például amikor egy németül beszélő ügyfél telefonál egy termékről érdeklődve, akkor egy angolul beszélő alkalmazott egy mesterséges médiaeszköz segítségével tudja kiszolgálni, ami úgy „hangozhat” mintha tényleg németül beszélne. Ennek eredményeképpen a technológia lehetővé teszi a márkák számára, hogy a lehető legjobb szolgáltatást nyújtsák, függetlenül nyelvi korlátaiktól. Ezt a technológiát folyamatosan tökéletesítik, az egyik úttörő ebben a tekintetben a Translatotron, egy 2019-ben a Google által indított MI szoftver. A munkahelyi felhasználási lehetőségek közé tartozhat még a képzési videók készítése az alkalmazottak és az ügyfelek számára; de a személyre szabott marketingkampányok kidolgozása is a legértékesebb ügyfeleink számára, vagy egyedi értékesítési pontok vagy segédletek biztosítása a vállalkozások számára esettanulmányokként. Ilyen platform például a Synthesia, mely az alkalmazottak képzésétől kezdve a marketingszolgáltatásokig számos megoldást kínál, és mindezt kizárólag az MI-szoftverrel generálja.

Szintetikus média: az „igazat” mondd, ne csak a valódit
Nagyban befolyásolhatják azt, hogy hogyan érzékeljük a teljesítményt, növelhetik a munkavállalók termelékenységét, javíthatják a munka minőségét, és elősegíthetik az innováció kultúráját (Fotó: Unsplash)

Annak ellenére, hogy sokan aggódnak a mesterséges intelligencia lehetséges kockázataival kapcsolatban, sok vállalkozás már elkötelezte magát amellett, hogy így vagy úgy de használja majd. Sőt, az IBM szerint a vállalatok 66%-a már használja vagy tervezi is az MI alkalmazását, hogy fenntarthatóbbá váljon. A szintetikus média áttöréseiben bemutatott MI-innovációk kiváló lehetőséget kínálnak a vállalatok számára, hogy pozitív társadalmi változásokat idézzenek elő. Egyben nem titok, hogy a szintetikus média alkalmazása sokak számára ijesztő is lehet. Az MI-fejlesztés etikus gyakorlata érdekében a technológiai innovációknak együtt kell működniük a különböző erőfeszítésekkel, melyek célja a mesterséges intelligencia vállalkozások és magánszemélyek általi felhasználásának gyakorlati szabályozása. Útmutató irányelvekre van szükségünk, melyek szabályokat mutatnak az alkalmazásukhoz (különösen az etika tekintetében). Ahogy a mesterséges intelligencia egyre kifinomultabbá válik, úgy nőnek az etikai kihívásai is. A legnagyobb gondot az jelenti, hogyan lehet tényleges és emberi „etikus viselkedést” belevinni a mesterséges intelligenciákba. Hiszen fontos lenne annak biztosítása, hogy az algoritmus ne alkalmazzon visszaélést vagy etikátlan gyakorlatot az emberekkel szemben, és vice versa.

Szintetikus média: az „igazat” mondd, ne csak a valódit

A deepfake jelenség mint emberkísérlet

Új korszakba léptünk tehát, melyben egyre több ember lesz kitéve a szintetikus médiának. Ez gyakorlatilag nem más, mint egy tömeges társadalmi „emberkísérlet”, és fogalmunk sincs, milyen következményei lehetnek ennek a médiumnak. Ha nem tudjuk pontosan megjósolni vagy tanulmányozni a hatását, akkor kevés reményünk van arra, hogy megvédjük magunkat a lehetséges veszélyei ellen. Bár a szintetikus média lenyűgöző lehet, kockázatokkal is járhat. Az MI által vezérelt médiaszintézis egyik leggyakoribb felhasználási módja a hihetőnek tűnő, de félrevezető, hamis vagy nem létező információkat tartalmazó szövegek generálása, melyet a köznyelv álhírként ismer. Ez a taktika ismert a spam-kampányok és a rosszindulatú hirdetési gyakorlatok során. A mesterséges intelligenciával történő médiaszintézis másik legismertebb felhasználási módja a hamis hang- és videóanyagok előállítása. Arra használhatják ezt a technológiát, hogy filmet készítsenek valakiről, aki olyan dolgokat állít, amit soha nem mondott, ez az úgynevezett „deepfake”. A deepfake videók gyors növekedése 2019 és 2020 között kezdett el behatolni a mainstream internetes platformokra, mára már közismert „gyakorlat”.

Szintetikus média: az „igazat” mondd, ne csak a valódit
Ez gyakorlatilag nem más, mint egy tömeges társadalmi „emberkísérlet”, és fogalmunk sincs, milyen következményei lehetnek ennek a médiumnak (Fotó: Unsplash)

A deepfake-ügyek kapcsán az újságírás nem tud szabadulni attól a ténytől, hogy a tudósítás régi formái a digitális információk térnyerése miatt hatalmas nyomás alá kerültek. Ezért megfelelő médiaműveltségre és ellenőrzésre van szükségünk ahhoz, hogy tudósítani tudjunk ezekről a deepfake videókról és a világméretű dezinformációkról vagy propagandákról. Jogi oldalról a személyiségi jogok és a szellemi tulajdonjogok szintén hatással vannak a hamisítási forgatókönyvekre. A mesterséges intelligencia által generált hamisított tartalmak jogszerűsége gyakran nem egyértelmű, így nehéz eldönteni, hogy hol is vannak tulajdonképpen maguk a jogaink (mikor is sértik meg azokat). A szerzői jog védi az eredeti szellemi tulajdont ugyan a másolástól; az exponenciális növekedés korában azonban hamarosan nem leszünk képes különbséget tenni a „valódi” és a „hamis” szöveg között. Sőt, továbbra is kérdéses, hogy megengedhetjük-e, hogy olyanok is hasznot húzzanak egy szövegből vagy képből, akik nem maguk alkották azt. Kié legyenek a jogok egy olyan szintetikus filmben, melyben az összes szereplőt digitálisan hozzák létre? A stúdió vagy a szereplőket generáló algoritmus alkotói? Megannyi kérdés, ami még válaszra vár, így sokak szerint a mesterséges intelligenciával az emberiség újra Pandóra szelencéjét nyitotta fel.

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek