A GPT-4V kreatívabb, és profin követi az utasításokat

Kömlődi Ferenc

2024. febr 1.

MEGOSZTÁS

A több módban működés, a multimodalitás megváltoztatja a nagy mesterségesintelligencia-modelleket. A rendszerek jobban értik az utasításokat, szövegek és képek társítását, összességében pedig kreatívabbak.

(Kiemelt kép: Unsplash)

A szövegeket és képeket összeboronáló mesterségesintelligencia-modellek nagyon gyorsan fejlődnek. A GILL (Képgenerálás nagy nyelvmodellekkel, Generating Images with Large Language Models) és más friss rendszerek egyetlen képi bemeneti vagy kimeneti adatot bármilyen képek és szövegek kombinációjára képesek kiterjeszteni. Kép és szöveg egymásba ágyazásával érik el, és ezzel a lehetőséggel a modellek több kontextussal rendelkeznek, tehát jobban „értik” az utasításokat, majd az ismeretre alapozva, pontosabb kimenettel állnak elő.

A nagy multimodális modellek mindkét adattípust feldolgozzák

A GPT-4V képekből szöveget, és a DALL-E 3 segítségével szövegből képeket generáló nagy multimodális modellt vezetett be. Az OpenAI azonban nem magyarázta el teljesen, hogy hogyan építették fel a rendszert.

Megtették helyettük mások, a pittsburghi Carnegie Mellon Egyetem (CMU) egyik kutatócsoportja. Az általuk javasolt GILL gyakorlómódszerrel a nagy nyelvmodell (Large Language Model, LLM) és kép-szöveg generátor bemenethez és kimenethez egyaránt használhat szöveget és képet. A szöveges és/vagy képi input alapján a modell eldönti, hogy meglévő képeket hasznosít újra, vagy újakat generál.

Az olyan modellek, mint a CLIP és az ImageBind hasonló beágyazási térhez rendelik a szöveg és képi inputokat, így a szorosan kapcsolódó szövegnek és képeknek hasonlók a beágyazásaik. Ezzel a megközelítéssel a nagy multimodális modellek mindkét adattípust fel tudják dolgozni. Szöveges outputok szintén hozzárendelhetők ugyanahhoz a beágyazási térhez, és így egy képdekódoló, mint például egy diffúziós modell, felhasználhatja őket képek előállítására, vagy egy kép-visszakereső a visszakeresésre.

Előnyben a nagy multimodális modellek

A kutatók előre gyakoroltatott OPT nagy nyelvmodellt, VIT-L képkódolót és egy szintén előzetesen trenírozott Stable Diffusion szöveg-kép generátort használtak. A VIT-L az OPT által generáltakhoz társította a saját beágyazásait, majd az OPT-t képet kérő promptok felismerésére tanították be, a rendszerrel pedig elérték, hogy vagy alkosson, vagy keressen vissza képeket.

Addig finomítottak az egészen, amíg a húszezer vizuális történetből álló VIST adatsoron kiértékelték GILL és a Stable Diffusion képességeit. A sztorik mindegyike öt feliratozott képből állt: ezeket minden történet végső képének létrehozásához használták. Egy felirattal GILL 0,581, a Stable Diffusion pedig 0,592 hasonlóságot ért el. Öt felirattal 0,612, illetve 0,598 volt ez a mutató. Minél pontosabb volt a kontextus, GILL annál jobban teljesített. A Stable Diffusion kevésbé volt képes kezelni a helyzetet.

(Képek: Pexels, Elite Engineering WA)