Az egyik legnépszerűbb mesterségesintelligencia-modell, a Stable Diffusion képgenerátor mögött álló cég, a Stability AI nyilvánossá tette a szöveges promptokból 16 kHz felbontású zenét vagy hangeffektusokat generáló Stable Audio Opent. A modell kódja és paraméterei nem kereskedelmi célra érhetők el, minták is hallgathatók.
Pontosan a kereskedelmi célú felhasználás kizárása miatt az Audio Open nem tekinthető nyílt forrásúnak. Ebben a formában nem felel meg a Nyílt Forrású Iniciatíva definíciójának, és jobb lenne, ha a mesterségesintelligencia-fejlesztők közössége csak azokra a modellekre, megoldásokra mondaná, hogy open source, amelyek minden kritériumnak megfelelően azok.
Mit tud az új modell?
A fejlesztőcég elmondta, hogy a modellel nem teljes darabok, hanem egésszé összegyúrható elemek generálhatók. Hasonlít a korábbi Stable Audio 2.0-hoz, de fontos különbségek is vannak köztük.
Hangtervezés mesterséges intelligenciával
Az Audio Open letöltésre, a 2.0 API-n (alkalmazásprogramozói felületen) vagy webes interfészen keresztül érhető el. Az új modell csak szöveges inputokat fogad el, a másik szöveges mellett audiót is. Maximum negyvenhét másodperces sztereóanyagokat hoz létre, míg a 2.0-nál három percre van lehetőségünk. A tanuláshoz használt adatkészletet nyíltforrású hang-adatbázisokból gyűjtötték össze, tehát bárki szerzői jogdíj fizetése nélkül dolgozhat, szórakozhat vele. A 2.0 begyakoroltatása kereskedelmi, azaz szerzői jogdíjas anyagokon történt.
Konkurencia
A Stable Audio Open a Stable Audio 2.0 mellett más modellekkel is fog versengeni. Erős lesz a kompetencia, mert idén és a következő években egyre több várható.
A hangklónozásról és hanggenerálásról ismert ElevenLabs az egyik. Legutóbbi termékük a szöveges promptokat rövid hangeffektusokká alakító – nevével sokat eláruló – Sound Effects. Ingyenes fiókkal rendelkező felhasználók maximum tízezer prompt-karaktert gépelhetnek be.
A zenekészítést illetően, az Udio és a Suno startupok webalapú rendszereket kínálnak. A modellek szöveges promptokból dolgoznak ki szerkesztett kompozíciókat, dalszöveggel, énekhanggal, teljes hangszereléssel. Naponta jó pár számot összehozhatunk ingyen.
A Stable Audio Opent zenéken és hangeffektusokon előzetesen egyaránt gyakoroltatták. Finomhangolható és módosítható. Mivel szerzői jogdíjmentes anyagokon trenírozták, garantált, hogy nem fogunk jogtalanul használni semmit. Az opció mindenkinek ajánlott, aki távol akarja tartani magát a zeneipar jogvédőitől, a generatív MI térhódításával beinduló pereskedésektől.
Képek: Stability AI