A Lausanne-i Svájci Szövetségi Technológiai Intézet és az Apple kutatói által fejlesztett 4M-21 rendszer minden eddiginél többféle, összesen huszonegy bemenet- és kimenettípussal működik. A modalitásokba többek között képek, geometria és szövegek tartoznak, metaadatokkal és más modellek által készített beágyazásokkal. Nagyon trendi a multomodalitás!
Huszonegy a bűvös szám!
A hét input- és outputtípust kezelő, korábbi 4M-en és a tizeneggyel elboldoguló Unified-IO-2-n dolgoztak. A többféle adatinput-típussal működő modellek gyakoroltatásának kulcsa, hogy a gyakorlóadatok azonos formátumúak legyenek, azonos méretű beágyazásokkal minden típusban. Transzformer architektúrát használva, tokenek elegendők.
A 4M-21 egy nagy transzformerből és több, a különféle adattípusokat tokenekké és visszakonvertáló kódoló-dekódolóból áll. A kutatók a 4M esetében megismételték a tréning-módszert, a transzformer méretét viszont drasztikusan, 303 millió paraméterről hárommilliárdra növelték. A gyakorló adatkészletet szintén: négyszázmillióról ötszázmillió példára. Ezeken kívül új input-típusokat is bevezettek.
A rendszer működése
Képekkel, címkékkel és szövegekkel kezdték, különféle eszközökkel mélységi, normális felületű, szemantikailag szegmentált, él-képeket, grafikus metaadatokat, határoló kereteket, színpalettákat, webszövegeket, kép- és szövegbeágyazásokat kivonatoltak.
Nagyon biztató eredmények
Az összes bemenettípust tokenné alakították, majd az összes modalitás véletlen tokenmintájával a 4M-21 megtanulta, hogyan jelezzen előre ilyen mintákat. A random minták néha pozitívan elfogultak voltak valamelyik modalitással, máskor meg a kiegyensúlyozottabb felé hajlottak. Végül a 4M-21 az output óhajtott modalitásait és a tokenek helyzetét specifikáló javaslatokat kapott.
A modell elég jó eredményt ért el a teszteken. Mivel különböző modalitások alapján prognosztizál, az inputnál sem korlátozható egyre. A kutatók bemutatták, hogy felirat, 3D emberi pózok, élek vagy metaadatok kombinációjából kiindulva, 4M-21 új képeket tud generálni.
Képek: DeepLearning.AI, Wikimedia Commons