Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

A legnagyobb multimodális mesterségesintelligencia-rendszer

MEGOSZTÁS

2024 a multimodalitás éve a szöveget, képet, videót és más kimeneteket generáló modelleknél. Elmúlnak azok az idők, amikor csak szövegből csak szöveget, képet és esetleg videót lehetett előállítani. Többféle bemenettel és kimenettel elboldogulnak, a világcsúcsot most döntötte meg egy modell.

A Lausanne-i Svájci Szövetségi Technológiai Intézet és az Apple kutatói által fejlesztett 4M-21 rendszer minden eddiginél többféle, összesen huszonegy bemenet- és kimenettípussal működik. A modalitásokba többek között képek, geometria és szövegek tartoznak, metaadatokkal és más modellek által készített beágyazásokkal. Nagyon trendi a multomodalitás!

Huszonegy a bűvös szám!

A hét input- és outputtípust kezelő, korábbi 4M-en és a tizeneggyel elboldoguló Unified-IO-2-n dolgoztak. A többféle adatinput-típussal működő modellek gyakoroltatásának kulcsa, hogy a gyakorlóadatok azonos formátumúak legyenek, azonos méretű beágyazásokkal minden típusban. Transzformer architektúrát használva, tokenek elegendők.

A 4M-21 egy nagy transzformerből és több, a különféle adattípusokat tokenekké és visszakonvertáló kódoló-dekódolóból áll. A kutatók a 4M esetében megismételték a tréning-módszert, a transzformer méretét viszont drasztikusan, 303 millió paraméterről hárommilliárdra növelték. A gyakorló adatkészletet szintén: négyszázmillióról ötszázmillió példára. Ezeken kívül új input-típusokat is bevezettek.

 

A rendszer működése

 

Képekkel, címkékkel és szövegekkel kezdték, különféle eszközökkel mélységi, normális felületű, szemantikailag szegmentált, él-képeket, grafikus metaadatokat, határoló kereteket, színpalettákat, webszövegeket, kép- és szövegbeágyazásokat kivonatoltak.

Nagyon biztató eredmények

Az összes bemenettípust tokenné alakították, majd az összes modalitás véletlen tokenmintájával a 4M-21 megtanulta, hogyan jelezzen előre ilyen mintákat. A random minták néha pozitívan elfogultak voltak valamelyik modalitással, máskor meg a kiegyensúlyozottabb felé hajlottak. Végül a 4M-21 az output óhajtott modalitásait és a tokenek helyzetét specifikáló javaslatokat kapott.

A modell elég jó eredményt ért el a teszteken. Mivel különböző modalitások alapján prognosztizál, az inputnál sem korlátozható egyre. A kutatók bemutatták, hogy felirat, 3D emberi pózok, élek vagy metaadatok kombinációjából kiindulva, 4M-21 új képeket tud generálni.

 

Képek: DeepLearning.AI, Wikimedia Commons

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!