A nagy nyelvi modellek a mesterségesintelligencia-fejlesztések egyik legígéretesebb terepe. A szöveget képpé, szöveget beszéddé alakító, már okostelefonos appok formájában, mindenki számára hozzáférhető modellek voltak 2022 MI-sikertörténetei. Az év végén aztán megjelentek a jóval több és nehezebben előállítható adatot, adatpárokat és gépi tanulást igénylő, szövegből mozgóképet/videót generáló technikák.
A diadalmenet nyilván folytatódik. A napokban például bemutattak egy új Microsoft-fejlesztést, a három másodperc után bárkinek a hangját leklónozó VALL-E-t, egy, szövegből beszédet szintetizálni hivatott programot (https://www.pcmag.com/news/microsofts-ai-program-can-clone-your-voice-from-a-3-second-audio-clip).
A hangklónozás nem új, kisebb-nagyobb sikerrel többen próbálkoztak már vele. A Microsoft látványos újítása, hogy a program bárkinek a hangját ilyen rövid idő alatt képes lemásolni, és más szövegre alkalmazni.
Hatvanezer óra beszédből tanult
A VALL-E paraméterei lenyűgözőek. A kutatók hatvanezer óra angol nyelvű hangoskönyv-felolvasást hallgattattak meg vele, több mint hétezer beszélővel. Erre épül, és ez a minta többszázszor nagyobb, mint a többi szöveg-beszéd rendszeré.
Hanghullámok (Kép: Envato Elements)
Azzal a céllal hozták létre, hogy emberhez hasonló hangot reprodukáljon. A kutatók honlapot készítettek a rendszernek, ahol több demó mutatja be működés közben.
VALL-E három másodperc után nemcsak leklónozza, hanem tetszés szerint tudja módosítani is a hangot, sőt, az illető érzelmi tónusát is visszaadja, de ha kell, más stílusban szintén képes beszélni. Sokoldalú.
VALL-E veszélyei és hibái
Egy ilyen rendszer, mint minden kamuképes és hasonló technológia, magától értetődően nemcsak nemes, hanem rossz célokra is felhasználható, nyilvánvalóan a digitális alvilág komoly lehetőséget lát mások hangjának tökéletes utánzásában. A Microsoft tisztában van a veszéllyel, figyelmeztetnek is a potenciális visszaélésekre: hangazonosító rendszereket verhetnek át, mások hangját tulajdoníthatják el vele. Ugyanakkor – szintén a többi deepfake technológiához hasonlóan – fejleszthetők a hamisítványokat leleplező, azonosító rendszerek.
Ennyiből is klónozható egy hang (Kép: Envato Elements)
Egyelőre viszont nem kell még tartanunk a rosszindulatú felhasználástól, mert a Microsoft – valószínűleg pont ezt megakadályozandó – nem tette közkinccsé a rendszert.
A technológia nem tökéletes, VALL-E időnként szavak kiejtésével küszködik, vagy elhibázza azokat. Máskor furán hangzanak, érezhető, hogy a hang nem emberi, vagy egyszerűen rossz a tónus.
A megoldás? Még több gyakorlásra, gyakorlóadatra van szüksége. Hatvanezer óra nem elég mindenkihez, tehát további ráncfelvarrások, fejlesztések várhatók.