Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Hogyan ismerhetők fel a deepfake, azaz AI generált beszédek és videók?

MEGOSZTÁS

A magyar politikai közbeszédben újfent téma lett a felvételek hamisítása, bizonyos mesterségesintelligencia-szoftverek alkalmazása.

Hogy az átlagember sose járjon úgy, mint egyes politikusok, igyekeztünk csokorba gyűjteni, miről ismerszenek meg a hamisított felvételek, hogyan dönthetjük el, valódi videókkal, hangfelvételekkel van-e dolgunk.

Deepfake videónak nevezzük a szoftveresen – jobbára MI-vel – manipulált és módosított felvételeket. Ilyen reeleket, vagy videókat persze csinálhat bárki kedvtelésből vagy barátai szórakoztatására, de a rosszindulatú felhasználási szándék sem ismeretlen a hírolvasó közönség előtt.

Mindazonáltal, egy deepfake videóról első látásra meg tudjuk állapítani, hogy hamisítvány vagy manipuláció nem árt néhány dolgot szemügyre venni.

A deepfake csalások célpontjai többnyire ismert emberek, politikusok, celebek.

Mi az a deepfake? Hogyan ismerjük fel a manipulációt?

Érdemes először a kontextust szemügyre venni, vagyis megvizsgálni azt, hogy az a megdöbbentő videó, amit megosztott velünk egy ismerősünk, hiteles környezetben hiteles “forgatókönyv” szerint történik-e. A deepfake-videók leggyakrabban a hamisítás “áldozatának” megszokott viselkedésével, világnézetével ellentétes mondatokat, magatartásokat mutatnak be. Mindenképpen érdemes gyanakodni, ha karakter önmagának ellentmondó helyzetben tűnik fel egy videón.

Ha egy ismert ember meghökkentő módon nyilatkozik, vagy sokkoló kijelentéseket tesz egy videóban, szintén érdemes megfigyelni a beszélő szájának mozgását. Mindenképpen gyanúra ad okot, ha ilyen esetben a száj körüli területek a képen elmosódottak, pixelesek, ha az elhangzott mondatok és az artikuláció nincsenek szinkronban. 

Persze nem csak a szájmozgás, hanem az arckifejezés, a mimika, vagy általában egy ismert arcon észlelhető inkonzisztencia is rendkívül árulkodó lehet. Lássuk be, kevés az esély arra, hogy egy ismert énekes homloka egyik napról a másikra másfélszer magasabb legyen, mint korábban.

Mivel a hamisítás során az MI megpróbálja az arcot a testre illeszteni, gyakran hibás “illesztések” jönnek létre. Ezek szabad szemmel is jól látható torzulásokat okozhat. Például akkor, amikor a videón szereplő személy elfordítja a fejét vagy beszélni kezd. 

Az arc geometriájának változásai, az ingadozó arccsontok vagy az elmozduló állkapocsvonal árulkodó jelei a deepfake videóknak.

Míg egy természetes személy megjelenése egy valós videóban egyenletes marad, a deepfake tartalmakban az arcvonások akár  képkockánként is enyhe eltéréseket mutathatnak. 

Mindez abból ered, hogy az MI számára komoly kihívást jelent az arc stabil és konzisztens megjelenítésének fenntartása a videó teljes terjedelmében.

Mint azt a BBC egy cikkében felidézi, hasonló incidensbe keverték a videóhamisítók Gareth Southgate-et, az angol futballválogatott edzőjét. A videóban Southgate bocsánatot kért az angol néptől a nemzeti válogatottnak a 2024-es foci Eb-n nyújtott teljesítménye miatt. A hamisítás tényét ebben az esetben pontosan a beszélő szájmozgásának rossz minőségű modulációja árulta el.

Kétkedésre adhat tehát okot az, ha a kép valamely kritikus területe feltűnően rosszabb minőségű, mint a kép egésze, bármely más részlete.

Emellett nem árt ellenőrizni a videó forrását sem. Ha visszafejtjük egy-egy szenzációhajhász videó eredetét, a legtöbb esetben valamilyen közösségimédiás fiókot, vagy profilt találunk.

Érdemes a videó alatti szöveges blokkban is körülnézni, elképzelhető, hogy egy hashtag mögött szerepel az MI (angol szövegkörnyezetben AI, vagyis artificial intelligence) megjelölés. De még akár a #deepfake  címkét is felfedezhetjük. 

Mindezek mellett legtöbbször a józan paraszti ész is segítségünkre lehet, hogy felismerjünk egy deepfake tartalmat. Igaz, az angol közvéleménynek valószínűleg könnyebb dolga lehetett, amikor meglátták a videót, amiben Rishi Sunak az Egyesült Királyság volt miniszterelnök Minecraftot játszik. Nekünk magyaroknak is van hasonló “művészettörténeti” sokkélményünk – arról a 2006-os videóról, amelyben hazánk akkori miniszterelnöke perdült táncra. Habár a miniszterelnöki tánc számtalan elemében deepfake-jegyeket mutatott, abban az esetben mégis valódi tartalomról volt szó…

Aki persze a fenti módszerek egyikében sem bízik, különböző – akár ingyenesen is elérhető – szoftvereket is segítségül hívhat. Ilyenek például a DeepFake Detector vagy a Deepware Scanner.

Mit hallok? Valódi vagy mesterségesen generált hangokat?

Az MI-technológia fejlődésével egyre nehezebb felismerni a mesterségesen generált hangokat. Legyen szó az emberi beszédről, vagy akár komplett zenei-zenekari felvételekről, a szintetizált hangok rendkívül valósághűek lehetnek.

Éppen ezért a hangfelvételek eredetiségének megállapítása gyakran a szakemberek számára is komoly kihívás. 

Az egyik alapvető eszköz a hangfelvétel akusztikai és spektrumanalízise. 

Az MI-generált beszéd hanghullámai gyakran mutatnak a természetes emberi beszédtől idegen hibákat. Jócskán leegyszerűsítve itt arról van szó, hogy míg a természetes beszédben az egyes fonémák között az “ámenet” sima, addig az MI-generált hangfelvételeknél előfordulhatnak olyan hirtelen, meredek váltások, amelyek a “hangképben” is megmutatkoznak.

A technológiai fejlődéssel párhuzamosan az ilyen hibák ritkulnak, illetve felismerésük is egyre nehezebb. 

Egy másik módszer, amelyeket szakemberek alkalmaznak a mesterségesen generált hangfelvételek kiszűrésére, az nem más, mint a gépi tanulás felhasználása. Itt már a kimondottan a mesterséges hangok felismerésére betanított modellek végzik a hangfelvételek elemzését.

Különböző hangbiometriai eszközök segítségével szintén könnyen különbséget lehet tenni a valós beszéd és a szintetizált hangok között. Az ilyen eszközök széles spektrumban képesek vizsgálni a hangkarakterisztikát. Beleértve olyan jellemzőket, mint a hangmagasság, és a hangszín és a rezonancia.

A deepfake tartalmak megjelenése nyomán világszerte számos kutató kezdett el a hamisítást felismerő specifikus algoritmuson dolgozni. Ezek elsődleges célja, hogy felismerje a manipulált vagy teljesen mesterségesen generált beszédet. 

Videó vagy hang – kötelező jelezni, ha nem valódi

Az Európai Parlament idén tavasszal szavazta meg az EU-ban érvényes MI-rendeletet. Ennek megfelelően bizonyos jogi szabályoknak is meg kell felelnie annak, aki mesterségesen generált videókat, képeket, vagy éppen más, MI-vel módosított tartalmakat oszt meg. A deepfake tartalmak egyértelműen ebbe a kategóriába tartoznak. 

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!