Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Különböző médiumok, hasonló beágyazások

MEGOSZTÁS

Egyre több az adat, egyre több az adattípus. Feldolgozásukhoz, a rájuk alapuló alkalmazásokhoz folyamatosan dolgoznak ki új technikákat. Van amikor működik az adattípusok párosítása, van amikor nem. A Meta új modellje ebben igyekszik segíteni.

Képek: Wikimedia Commons

 

Ha egy mesterséges intelligencia (MI), mint például az OpenAI CLIP-je szöveghez és a kapcsolódó képhez hasonló beágyazásokat – „egy pingvin fényképe” és egy pingvin fényképe – tud létrehozni, akkor számos alkalmazás építhető rá. Például a gyakorlósorban nem szereplő címkék alapján képek is osztályozhatók lesznek.

 

Adattípusok egymás között

A Meta új modellje, az ImageBend hat adattípusra terjeszti ki ezt a képességet: szövegre, audióklipre, képre, videóra, hőképre, mélységi képre, inerciális mérőegység (IMU), például gyorsulásmérő és giroszkóp leolvasására.

A multimodális beágyazások megtanulásának egyik komoly kihívása az olyan gyakorlóadatokhoz való hozzáférés, amelyek az összes érintett adattípus egyező párjait tartalmazzák. Például összetársított kép-szöveg párok, képmélység-párok és kép-hő párok könnyen elérhetők, szöveg-hő, szöveg-mélység és más párok viszont nem.

 

 

Ha a modell megtanul egy médiatípus, például képek adott párosításához létrehozni beágyazásokat, akkor a többihez is el kell sajátítania ezt a készséget. A Meta kutatócsoportja szerint nem is kell külön-külön speciális gyakoroltatás.

 

Így működik

Az ImageBend a videó kivételével minden egyes médiatípus beágyazásához külön transzformert használ.

A gyakorlóadatokhoz YouTube-os videó-audiópárok, mélységi éjszakai utcai jelenetek képek, kép-hőkép párok, videó-IMU párok tartoznak. A kép- és szövegkódolókat nem nulláról kezdték tanítani, hanem a korábban többmilliárd kép-szövegpáron gyakoroltatott OpenCLIP-et alkalmazták. A transzformerek veszteségfüggvényekkel tanultak. Ha adott volt például egy kép és a párja egy másik médiatípusból, a veszteség hasonló beágyazások létrehozására inspirálta őket. Ha a kép és a példa nem kapcsolódott egymáshoz, akkor különböző beágyazásokat készítettek.

Tehát az ImageBend a CLIP-hez hasonlóan osztályozza az adatokat. Az eredmények bíztatóak, de bőven van még mit tanulnia. Egyes modelleket simán megvert, de a felügyelt tanulással gyakorlók nála teljesítettek jobban.

 

Egyszerűbbek lesznek az alkalmazások?

A megközelítés mindenesetre ígéretes, előrelépés a különböző médiumokban hasonló jelentésű párokhoz hasonló beágyazásokat generáló eddigi modellekhez képest. Ha modellünk repertoárját új adattípussal bővítjük, egyszerűen finomhangolni kell a megfelelően párosított adatokon.

Az ImageBend projekt tanulsága, hogy a gépitanulás-modelleknek nem kell az összes adattípus-párokból tanulnia változatos adattípusokhoz készülő hasonló beágyazásokhoz. A munka ugyan bonyolult, nehezen követhető, az eredmény és a ráépülő újabb fejlesztések viszont könnyebbé teszik az MI-kutatók munkáját, a felhasználó pedig egyszerűbb alkalmazásokban győződhez majd meg erről.

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek