Az illusztrációs anyag Jean-Michel Basquiat képek felvételei a művész tavalyi bécsi kiállításán készültek. Fénykép: Kömlődi Ferenc
Jó referenciaszövegek jelentős mértékben javítják a nyelvmodellek válaszadó képességét. A kérdéshez kapcsolódó Wikipédia-bejegyzés ugyan hasznos, de a vonatkozó dokumentum még akkor is jobb, ha azt szöveggeneráló mesterséges intelligencia készíti – derült ki egy friss kutatásból.
Ha azt akarjuk, márpedig nyilvánvalóan azt akarjuk, hogy a modell pontos választ adjon, akkor az inputot célszerű a weben talált referenciaszöveggel kiegészíteni, és az output minden bizonnyal jobb lesz, mint nélküle. Viszont a weben kívül is léteznek hasznos, alkalmasint pedig még hasznosabb források.
A válasz tényleg nagyon nem mindegy, és a jövőben még kevésbé lesz az. Gombamód szaporodnak az alkalmazások, az oktatásban heves viták tárgya, hogy a diákok használhatják-e őket, vagy sem (például Barabási Albert-László kötelezővé tette a használatukat).
Milyen mély a Mariana-árok?
Két amerikai felsőoktatási intézmény, a Notre Dame Egyetem és a Dél-kaliforniai Egyetem, valamint a Microsoft kutatói ezt a témát vizsgálva, begyakoroltatott modellel generáltattak referenciaszöveget. A 175 milliárd paraméteres InstructGPT volt a modell, a TriviaQA és más kérdés-felelet adatsorokon gyakorolva kellett a kérdésekre vonatkozó szöveggel előállnia. A kérdésekre a TriviaQA adatsoron és a referenciaszövegen trenírozott, finomhangolt, hárommilliárd paraméteres FiD válaszolt. A kutatók meghatározták, hogy egy kérdésre több korrekt válasz lehetséges.
A webes keresés eredménye nem egyértelmű, és ha a szövegek relevánsak is, gyakran tartalmaznak a válaszadásban nem segítő információt. Például azt szeretnénk tudni, hogy „milyen mély a Mariana-árok?” Ha a Wikipédia-oldalt használjuk, a kérdés szempontjából csomó nem releváns információt kapunk: hol található, milyen élőlények honosak arra, történelem, felfedezők stb. Minket viszont csak egy szám érdekel, körítés nélkül.
Ha weboldalakon gyakorolt nyelvmodell, amely megkapta a kérdést, a kérdésre és a weboldalakra fókuszál az általa generált dokumentumban. Egy ilyen modell megkönnyíti a válaszadó MI dolgát.
Nem mindenre jó a Wikipédia
Ez történt a kutatásban is. Az InstructGPT a szöveges utasítások, promptok alapján minden kérdéshez megfelelő háttéranyaggal állt elő. Utána a kutatók minden egyes kérdés-referenciaszöveg párt a GPT-3-mal beágyaztak, klasztereztek. A rendszer mindegyik klaszterből véletlenszerűen kiválasztott öt párt, aztán klaszterenként inputkérdést (mondjuk, „milyen típusú képeket alkotott Jean-Michel Basquiat?”) és párokat kapva, az InstructGPT releváns infókat tartalmazó dokumentumot készített.
A kérdéseket és a dokumentumokat betáplálták a FiD-be, ami válaszolt is. (A Basquiat-kérdésre például a „neoexpresszionizmus”, „1980-as évek”, „afro”, „graffiti”, „szöveg-rajzkollázs” érvényes válaszok.)
A kutatók a TriviaQA segítségével értékelték ki a válaszokat. Az FiD az InstructGPT által generált dokumentumok 71,6 százalékában volt pontos, míg Wikipédia-szövegekkel 66,3 százalékot ért el.
A legjobb teljesítményt (74,3 százalék) akkor érte el, amikor a modell a Wikipédiához és a generált dokumentumokhoz is hozzáfért. A generált dokumentumok önmagukban is jobb teljesítményt hoztak ki belőle, de a Wikipédiával kombinálva még magasabb pontszámot ért el.