Képek: Wikimedia Commons
Ha egy mesterséges intelligencia (MI), mint például az OpenAI CLIP-je szöveghez és a kapcsolódó képhez hasonló beágyazásokat – „egy pingvin fényképe” és egy pingvin fényképe – tud létrehozni, akkor számos alkalmazás építhető rá. Például a gyakorlósorban nem szereplő címkék alapján képek is osztályozhatók lesznek.
Adattípusok egymás között
A Meta új modellje, az ImageBend hat adattípusra terjeszti ki ezt a képességet: szövegre, audióklipre, képre, videóra, hőképre, mélységi képre, inerciális mérőegység (IMU), például gyorsulásmérő és giroszkóp leolvasására.
A multimodális beágyazások megtanulásának egyik komoly kihívása az olyan gyakorlóadatokhoz való hozzáférés, amelyek az összes érintett adattípus egyező párjait tartalmazzák. Például összetársított kép-szöveg párok, képmélység-párok és kép-hő párok könnyen elérhetők, szöveg-hő, szöveg-mélység és más párok viszont nem.
Ha a modell megtanul egy médiatípus, például képek adott párosításához létrehozni beágyazásokat, akkor a többihez is el kell sajátítania ezt a készséget. A Meta kutatócsoportja szerint nem is kell külön-külön speciális gyakoroltatás.
Így működik
Az ImageBend a videó kivételével minden egyes médiatípus beágyazásához külön transzformert használ.
A gyakorlóadatokhoz YouTube-os videó-audiópárok, mélységi éjszakai utcai jelenetek képek, kép-hőkép párok, videó-IMU párok tartoznak. A kép- és szövegkódolókat nem nulláról kezdték tanítani, hanem a korábban többmilliárd kép-szövegpáron gyakoroltatott OpenCLIP-et alkalmazták. A transzformerek veszteségfüggvényekkel tanultak. Ha adott volt például egy kép és a párja egy másik médiatípusból, a veszteség hasonló beágyazások létrehozására inspirálta őket. Ha a kép és a példa nem kapcsolódott egymáshoz, akkor különböző beágyazásokat készítettek.
Tehát az ImageBend a CLIP-hez hasonlóan osztályozza az adatokat. Az eredmények bíztatóak, de bőven van még mit tanulnia. Egyes modelleket simán megvert, de a felügyelt tanulással gyakorlók nála teljesítettek jobban.
Egyszerűbbek lesznek az alkalmazások?
A megközelítés mindenesetre ígéretes, előrelépés a különböző médiumokban hasonló jelentésű párokhoz hasonló beágyazásokat generáló eddigi modellekhez képest. Ha modellünk repertoárját új adattípussal bővítjük, egyszerűen finomhangolni kell a megfelelően párosított adatokon.
Az ImageBend projekt tanulsága, hogy a gépitanulás-modelleknek nem kell az összes adattípus-párokból tanulnia változatos adattípusokhoz készülő hasonló beágyazásokhoz. A munka ugyan bonyolult, nehezen követhető, az eredmény és a ráépülő újabb fejlesztések viszont könnyebbé teszik az MI-kutatók munkáját, a felhasználó pedig egyszerűbb alkalmazásokban győződhez majd meg erről.