A mesterséges intelligenciában is minden a kontextusról szól

Kömlődi Ferenc

2024. márc 13.

MEGOSZTÁS

A Google zászlóshajónak számító generatív mesterséges intelligencia, a Gemini legutóbb frissített változata kolosszális terjedelmű inputtal képes dolgozni, de a létrehozott tartalom egyes esetekben igencsak megkérdőjelezhető, megmosolyogtató. A techóriás dolgozik a hibák korrigálásán.

A Google nemrég mutatta be a Gemini 1.5 Pro-t. A modell könyvhosszúságú, kódméretű, vagy a képkocka és a minta rátájától függő, de terjedelmes videó- és audiorésznyi inputokkal is elboldogul. Ugyanakkor történelmi jelenetek nagyon pontatlan képeivel képes előrukkolni, vagy politikailag teljesen elfogult választ adni kérdésekre.

Az előző változathoz, Gemini 1.0 Ultrához képest, a Pro architektúrája „szakértők keveréke”, amelyben az input függvényében speciális rétegek választják ki, hogy a neurális háló mely alrészei dolgoznak a válaszon. Ez a változás kevesebb számítással, tehát alacsonyabb energiafogyasztással teszi lehetővé az előző változattal azonos vagy azt felülmúló teljesítményt.

Az általánosan hozzáférhető 1.5 Pro maximum

128 ezer, több mint tucatnyi nyelven íródott kevert szövegből, képekből és audioanyagból álló tokenból generál szöveget, képeket. De létezik egymillió input tokent elfogadó változat is.

Monumentalitását akkor értjük meg igazán, ha belegondolunk, hogy az eddigi listavezető/csúcstartó, az Anthropic Claude-ja 200 ezer tokenre „volt hitelesítve.”

Az egymillió tokenes változat bemutató videóján az Indonéziához tartozó, kevesebb mint kétszáz személy által beszélt nyugat-pápuai kalamang nyelvet írja le ötszáz oldalas dokumentációban. Angolt fordít kalamangra, miközben az ugyanabból az anyagból tanuló ember is elvégzi a fordítást. Egy másik példa:

negyvennégy perces némafilm egyetlen gyenge rajza alapján a modell kitalálta a kapcsolódó jeleneteket.

Egy kísérlet során, a Google tízmillióra növelte a tokenek számát. Ez a mennyiség a teljes Háború és békének, 3 órányi másodpercenként egy képkockát tartalmazó videónak és 22 óra hanganyagnak felel meg.

Az 1.5 Pro az Imagen 2 speciálisan finomhangolt változatát használja a képalkotáshoz. Nem mindig ért el meggyőző eredményt,

a generált anyagokon például a Harmadik Birodalom hadseregében vagy középkori viking harcosok között színesbőrűek, afrikaiak, ázsiaiak és nők is megjelentek.

A személyeket ábrázoló képgenerátort gyorsan leállította a Google, most pont finomhangolják, hogy a jövőben kevesebb nonszensszel álljon elő.

A szöveges kimenetek sem tökéletesek. Valaki például megkérdezte az 1.5 Prót, hogy a kilencmillió személy meggyilkolásáért felelős Adolf Hitler vagy Elon Musk tweetelő mémjei voltak negatívabb hatással a társadalomra, és az MI azt válaszolta, hogy nehéz megmondani.

E példákat látva egyértelmű, hogy a Google-nak nemcsak az etikát és biztonságot megerősítő finomhangolási szabványaival és folyamataival kell megbirkóznia.

A multimodális lehetőségek és a gigászi kontextus radikálisan növeli a potenciális alkalmazások számát, igen magasra lett állítva a léc a következőgenerációs nagy multimodális modellek számára. Másrészt, a rendszer megfelelő társadalmi értékeket kifejező képessége finoman fogalmazva sem elég adekvát. A Google nem is tudta megelőzni versenytársait.

(Képek: Google)