Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Zeneszerzés mindenkinek

Szöveges utasítások alapján mesterségesintelligencia-modellek szövegeket és képeket is generálnak, sőt, ha MI-re gondolunk, akkor ezek az appok jutnak eszünkbe ma. Mozgóképek és 3D modellek is létrehozhatók, viszont kevés hozzájuk a gyakorlóadat. A zene lehet a legújabb hullám, divathullám.

Képek: StockVault, Wallpaper Flare

 

A Stable Diffusion szöveg-kép és a StableLM szöveg-szöveg generátor mögötti cég, a Stability.ai elindította a szövegből zenét és hangeffektusokat létrehozó Stable Audio alkalmazást. A szolgáltatás ingyenes változata havi húsz, maximum 45 másodperc hosszú, a 11,99 dolláros előfizetés ötszáz, maximum kilencven másodperces anyag. A vállalati opció alku és megállapodás tárgya.

A Stability.ai idővel nyílt forrásúvá igyekszik tenni a modellt.

 

Stable Diffusion után

A zenegenerálás a Stable Diffusion jól működő képgenerálásához hasonlóan történik, némi különbséggel: a hangot speciális megoldással képezi le, ágyazza be, dolgozza fel ahhoz, hogy a végén tényleg hallgatható, élvezhető legyen.

A rendszert 800 ezer audiőfájlon tanították; a fájlok zenét, hangeffektusokat, egyedi hangszereken előadott darabokat és kapcsolódó leírásokat tartalmaznak.

A gyakorlás alatt egy kódoló megtanulja az audiópéldák beágyazását, adatsoron gyakoroltatott transzformer a zenei jellemzőket, például stílust, hangszereket, tempót, hangulatot és másokat leíró jegyeket tartalmazó beágyazást generál. Az egymástól elválasztott rétegek az anyag hosszára  vonatkoznak, a modell pedig megtanulja belőlük a zenemű időbeli változásait és a változások módját.

 

 

Más generatív technológiákhoz hasonlóan, a Stable Audio hozzáadott zajjal dolgozik, és a zaj fokozatos eltávolításával jut el a kívánt outputig. A rendszer teljesen zajos beágyazással és leíró szöveg plusz a fájl hosszúságára vonatkozó infó beágyazásával kezdi, majd jut el a CD-minőségű felbontásig, a megfelelő outputig.

 

A Google és az OpenAI is jelen van a piacon

A Stable Audio nincs egyedül a piacon. A Boomy, a Mubert, a plugger.ai, a Soundful és a VEED-IO a többek, és persze az MI vezető nagyvállalatai, a Google és az OpenAI is jelen vannak.

A Google MusicLM rendszere úgy tanult meg szöveges leírásból zenét generálni, hogy a feladatot sorozatok közötti modellezési problémaként kezelte. Az OpenAI Jukeboxa megtanulta a gyakorlóadatok tömörítését, és ebből a tömörített anyagból generált hangokat. A kutatók a művészekre, szövegre és stílusra vonatkozó metaadatokat is használtak hozzá. A Stable Diffusion spektogramjaiból a Riffusion készített hangot.

A Stable Audioról kiderült, hogy instrumentális és ambient generálásban nagyon jó, a kimenet szerkezete viszont sokszor nem koherens. A generált hang azonban zenén kívüli területeken, például videóban, játékokban és podcastben is hasznos szerepet játszhat.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!