Képek: StockVault, Wallpaper Flare
A Stable Diffusion szöveg-kép és a StableLM szöveg-szöveg generátor mögötti cég, a Stability.ai elindította a szövegből zenét és hangeffektusokat létrehozó Stable Audio alkalmazást. A szolgáltatás ingyenes változata havi húsz, maximum 45 másodperc hosszú, a 11,99 dolláros előfizetés ötszáz, maximum kilencven másodperces anyag. A vállalati opció alku és megállapodás tárgya.
A Stability.ai idővel nyílt forrásúvá igyekszik tenni a modellt.
Stable Diffusion után
A zenegenerálás a Stable Diffusion jól működő képgenerálásához hasonlóan történik, némi különbséggel: a hangot speciális megoldással képezi le, ágyazza be, dolgozza fel ahhoz, hogy a végén tényleg hallgatható, élvezhető legyen.
A rendszert 800 ezer audiőfájlon tanították; a fájlok zenét, hangeffektusokat, egyedi hangszereken előadott darabokat és kapcsolódó leírásokat tartalmaznak.
A gyakorlás alatt egy kódoló megtanulja az audiópéldák beágyazását, adatsoron gyakoroltatott transzformer a zenei jellemzőket, például stílust, hangszereket, tempót, hangulatot és másokat leíró jegyeket tartalmazó beágyazást generál. Az egymástól elválasztott rétegek az anyag hosszára vonatkoznak, a modell pedig megtanulja belőlük a zenemű időbeli változásait és a változások módját.
Más generatív technológiákhoz hasonlóan, a Stable Audio hozzáadott zajjal dolgozik, és a zaj fokozatos eltávolításával jut el a kívánt outputig. A rendszer teljesen zajos beágyazással és leíró szöveg plusz a fájl hosszúságára vonatkozó infó beágyazásával kezdi, majd jut el a CD-minőségű felbontásig, a megfelelő outputig.
A Google és az OpenAI is jelen van a piacon
A Stable Audio nincs egyedül a piacon. A Boomy, a Mubert, a plugger.ai, a Soundful és a VEED-IO a többek, és persze az MI vezető nagyvállalatai, a Google és az OpenAI is jelen vannak.
A Google MusicLM rendszere úgy tanult meg szöveges leírásból zenét generálni, hogy a feladatot sorozatok közötti modellezési problémaként kezelte. Az OpenAI Jukeboxa megtanulta a gyakorlóadatok tömörítését, és ebből a tömörített anyagból generált hangokat. A kutatók a művészekre, szövegre és stílusra vonatkozó metaadatokat is használtak hozzá. A Stable Diffusion spektogramjaiból a Riffusion készített hangot.
A Stable Audioról kiderült, hogy instrumentális és ambient generálásban nagyon jó, a kimenet szerkezete viszont sokszor nem koherens. A generált hang azonban zenén kívüli területeken, például videóban, játékokban és podcastben is hasznos szerepet játszhat.