Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Három másodperc alatt bárkinek a hangja klónozható

MEGOSZTÁS

A Microsoft sem maradt le a nagy mesterségesintelligencia-versenyfutásban, szöveget beszéddé alakító rendszere már most bámulatos, eredményesebb a riválisoknál, és ez még csak a kezdet. A modell persze nem tökéletes, és veszélyeket is rejt, úgyhogy fontos finomhangolás és további gépi tanulás várható.

A nagy nyelvi modellek a mesterségesintelligencia-fejlesztések egyik legígéretesebb terepe. A szöveget képpé, szöveget beszéddé alakító, már okostelefonos appok formájában, mindenki számára hozzáférhető modellek voltak 2022 MI-sikertörténetei. Az év végén aztán megjelentek a jóval több és nehezebben előállítható adatot, adatpárokat és gépi tanulást igénylő, szövegből mozgóképet/videót generáló technikák.

A diadalmenet nyilván folytatódik. A napokban például bemutattak egy új Microsoft-fejlesztést, a három másodperc után bárkinek a hangját leklónozó VALL-E-t, egy, szövegből beszédet szintetizálni hivatott programot (https://www.pcmag.com/news/microsofts-ai-program-can-clone-your-voice-from-a-3-second-audio-clip).

A hangklónozás nem új, kisebb-nagyobb sikerrel többen próbálkoztak már vele. A Microsoft látványos újítása, hogy a program bárkinek a hangját ilyen rövid idő alatt képes lemásolni, és más szövegre alkalmazni.

 

Hatvanezer óra beszédből tanult

A VALL-E paraméterei lenyűgözőek. A kutatók hatvanezer óra angol nyelvű hangoskönyv-felolvasást hallgattattak meg vele, több mint hétezer beszélővel. Erre épül, és ez a minta többszázszor nagyobb, mint a többi szöveg-beszéd rendszeré.

Hanghullámok (Kép: Envato Elements)

 

Azzal a céllal hozták létre, hogy emberhez hasonló hangot reprodukáljon. A kutatók honlapot készítettek a rendszernek, ahol több demó mutatja be működés közben.

VALL-E három másodperc után nemcsak leklónozza, hanem tetszés szerint tudja módosítani is a hangot, sőt, az illető érzelmi tónusát is visszaadja, de ha kell, más stílusban szintén képes beszélni. Sokoldalú.

 

VALL-E veszélyei és hibái

Egy ilyen rendszer, mint minden kamuképes és hasonló technológia, magától értetődően nemcsak nemes, hanem rossz célokra is felhasználható, nyilvánvalóan a digitális alvilág komoly lehetőséget lát mások hangjának tökéletes utánzásában. A Microsoft tisztában van a veszéllyel, figyelmeztetnek is a potenciális visszaélésekre: hangazonosító rendszereket verhetnek át, mások hangját tulajdoníthatják el vele. Ugyanakkor – szintén a többi deepfake technológiához hasonlóan – fejleszthetők a hamisítványokat leleplező, azonosító rendszerek.

Ennyiből is klónozható egy hang (Kép: Envato Elements)

 

Egyelőre viszont nem kell még tartanunk a rosszindulatú felhasználástól, mert a Microsoft – valószínűleg pont ezt megakadályozandó – nem tette közkinccsé a rendszert.

A technológia nem tökéletes, VALL-E időnként szavak kiejtésével küszködik, vagy elhibázza azokat. Máskor furán hangzanak, érezhető, hogy a hang nem emberi, vagy egyszerűen rossz a tónus.

A megoldás? Még több gyakorlásra, gyakorlóadatra van szüksége. Hatvanezer óra nem elég mindenkihez, tehát további ráncfelvarrások, fejlesztések várhatók.

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek