Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Jobbak lesznek a képeket generáló modellek

MEGOSZTÁS

A tavaly berobbant mesterségesintelligencia-alkalmazások közül ugyan a ChatGPT a leghíresebb, de a szövegből képet varázsló appok is szép munkát végeznek. Némi módosítással pedig a képek a korábbiaknál is élethűbbek. Serényen dolgoznak a neurális hálók.

(Képek: Flickr)

Az elmúlt hónapokban, az utóbbi egy évben tarolnak a mesterségesintelligencia-alkalmazásokkal generált képek, a szöveges utasítások, a promptok után egyre realisztikusabb, élethűbb kimenetekkel áll elő az app (Midjourney, Stable Diffusion, DALL-E-2 a legismertebbek).

A siker a diffúziós modellek érdeme, mostantól viszont az ezeken a modelleken végbevitt módosítással még az eddigieknél is jobb outputokra, tehát javuló minőségű képekre számíthatunk.

Idegháló modellek

A nagyobb számítási kapacitás és a több adat miatt, a transzformerek sok feladatban jobban teljesítenek, mint más architektúrák. William Peebles, a Berkeley-i Kaliforniai Egyetem és Saining Xie, a New York Egyetem kutatója a gordiuszi csomót átvágva, diffúziós modellel turbózta fel a transzformer architektúrát – az ő megoldásuk jelenti az újabb előrelépést az MI által generált képek egyelőre rövid történetében.

 

 

Az egyik kulcsfontosságú komponenst, a U-Net konvolúciós neurális hálót (CNN) transzformerrel helyettesítve, jutottak el a nemes egyszerűséggel csak diffúziós transzformer (DiT) néven emlegetett új modellig.

CNN-eket főként a képfeldolgozásban alkalmaznak, különböző jellemzők, például élek jobban kiemelhetők velük. A gyorsan dolgozó transzformerek a kontextust és így a jelentést is, szekvenciális adatok, például egy mondat szavai közötti kapcsolatokon keresztül tanulják meg. A diffúziós modellek rendeltetése adathalmazok rejtett szerkezetének megismerése, amelyhez az adatpontok rejtett térbeli szétszóródási módját modellezik.

Élethűbb képekre számíthatunk

Gyakorlás közben egy diffúziós modell készít egy képet, majd a képhez zajt, leíró beágyazást, és az adott időpont beágyazását adják hozzá. A leíró beágyazásban jellemzően egy, a képet ismertető mondat szerepel.

A rendszer ezt a beágyazást használva tünteti el a zajt a következő időlépésekben. Azaz teljesen „zajos” képpel és a leíró beágyazással kezdve, a beágyazásnak megfelelően, lépésről lépésre, iteratív módon távolítja el a zajt.

 

 

A rejtett diffúziós modell néven ismert változattal a zajnak nem a képről, hanem a képet „megjelenítő” beágyazásáról történő eltüntetésével számítások spórolhatók meg.

Tipikus diffúziós modelleknél a U-Net megtanulja a képről eltávolítandó zaj felbecslését. Az utóbbi hónapok kutatásaiból viszont kiderült, hogy a transzformerek sok gépilátás-feladatban jobban teljesítenek, mint a CNN-ek. Tehát jobb eredményt érünk el, ha egy CNN-t transzformerrel helyettesítünk.

A két kutató s Stable Diffusion rejtett diffúziós modellt, a transzformernek a modell magjába történő helyezésével módosították, majd az ImageNet kép-adatbázison gyakoroltatták. A rendszer a zajos képbeágyazásokat tokenek sorára tördelte szét, a transzformer pedig a megsaccolt zajt előállítandó, megtanulta feldolgozni a tokeneket.

Az új modell kifejezetten jól, riválisainál meggyőzőbben teljesített.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!