Gyakran felmerülő probléma mesterségesintelligencia-modellekkel, hogy valótlant állítanak, nem az igazat válaszolják kérdéseinkre, maguktól, pontosabban az általuk használt gyakorlóadatok alapján találnak ki a valóságot torzító, vagy azzal köszönőviszonyban sem álló történeteket.
Sokakkal megesett már, hogy például saját magukról, közeli hozzátartozókról, barátokról faggatták valamelyik chatbotot, elsősorban a ChatGPT-t, és az MI nonszensz válaszokat adott: az illető már meghalt, nem is újságíró, hanem püspök volt, de az is lehet, hogy híres olimpikon.
A helyzet javult 2023 óta, a fejlesztőcégek jobban odafigyelnek a gyakorlóadatokra: ne legyenek előítéletesek, elfogultak, időpontok és helyszínek megfeleljenek a valóságnak.
A modellek letöltött dokumentumok alapján is hajlamosak mellébeszélésre. Mivel az adatok és a dokumentumok általában emberekhez köthetők, a szubjektum nem zárható ki, amikor pedig szintetikusak, akkor más jellegű, főként súlyos minőségi problémák merülnek fel.
De milyen gyakran hallucinálnak valójában a nagy nyelvmodellek (large language models, LLM)?
Mik azok a tokenek?
A mesterségesintelligencia-modelleket kiértékelő Galileo platform népszerű chatbotokat vizsgáztatott, visszakeresés-alapú szöveggenerálásnál tesztelte mennyire mondanak valótlanságokat. Huszonkettőt vizsgált, változatos hosszúságú dokumentumokból kellett használható információt kinyerniük. A versenyt az Anthropic Claude 3.5 Sonnet modellje nyerte meg. Általános tanulság, hogy a modellek túlnyomó többsége közepes hosszúságú dokumentumokkal teljesített legjobban.
Fejlesztők és modelljeik
A megmérettetésen tíz zárt és tizenkét nyílt modellt vizsgáltak. Mindegyiket hússzor, tehát összesen hatvanszor futtatták le rövid, közepes és hosszú anyagokon. A kiértékeléshez a GPT-4o-t használták, az ő segítségével döntötték el, hogy a generált szöveg mennyire áll közel az eredetihez.
A kutatók négy nyilvános és két jogvédett adatkészletet használtak kisebb, ötezernél kevesebb tokennél. Közepes és nagy-terjedelmű szövegeknél magáncégek dokumentumaival dolgoztak.
A tokenek szövegegységek, anyagonként, modellenként és tokenizációs gyakorlatonként változik, hogy a szövegek szavakra, szóegységekre, karakterekre vagy más fontos részekre, például vannak felosztva. A modell külön-külön kezeli ezeket. Ha a felosztás szóalapú, akkor például az „Ez egy fekete macska” mondatban négy token található. Ha másként járunk el, betűktől, betűkapcsolatig, aláhúzásig, felkiáltójelig, sok nyelvi eszköz lehet token. Leggyakoribb a szóegységek, főként betűk és betűkapcsolatok szerinti felosztásuk.
A nagy hallucinációteszt
Közepes méretű anyagoknál a dokumentumokat öt-, tíz-, tizenöt-, húsz- és huszonötezer tokenes szakaszokra osztották fel. Hosszúaknál negyven-, hatvan-, nyolcvan- és százezer tokenes részeket különítettek el egymástól.
Egy másik teszt
Mindegyik tesztnél promptot (szöveges utasítást) és a kapcsolódó dokumentumot táplálták be a modellbe. A promptban egyedi információ a szövegből történő kivonatolására utasították a modellt.
A promptot és a választ ezt követően betáplálták a Galileo ChainPoll hallucináció-észlelő rendszerébe. A ChainPoll gondolatlánc-alapú promptolással többször lekérdez egy modellt az eredményről. Jelen esetben a GPT-4o-val tette, amelynek vagy eggyel, vagy nullával kellett válaszolnia. Ha egyest adott, az output megfelelt a dokumentumnak, ha nullát, akkor viszont nem. Mindegyik „versenyzőnél” és szövegtípusnál (rövid, közepes, hosszú) átlagolták a GPT-4o válaszait. Ezek alapján alakult ki a végső pontszám.
A végeredmény
A Claude 2.5 Sonnet 0,97-es átlaggal érte el „rövid kontextus” kategóriában a legjobb teljesítményt. Közepes és hosszú anyagoknál még jobban teljesített, mindkettőben egyest, ami azt jelenti, hogy szinte biztosra mehetünk vele, mert nem fog hallucinálni.
Nyílt modellek közül a Qwen2-72h érte el rövid- és „középtávon” a legjobb eredményt: 0,95-öt, illetve egyet. A kutatók a Google Gemini 1.5 Flasht emelték még ki jó teljesítménye és a teljesítményhez képest nagyon alacsony ára miatt: rövid szövegeknél 0,94-et, közepeseknél egyest, hosszabbaknál 0.92-t abszolvált.
Ezek a botok versenyeztek
Mivel a modellek középtávon jeleskedtek, a kutatók meg is jegyezték, hogy „ez a legjobb hely LLM-ek számára.” Érdekes és egyelőre megválaszolatlan kérdés, hogy ebben a kategóriában miért kevesebb a hallucináció.
Javuló tendencia
A Galileo nem most végzett először ilyen tesztet. Tavaly visszakereséses és nem-visszakereséses feladatot egyaránt végeztetett a modellekkel, szöveghosszúsággal viszont nem foglalkoztak. Az első három helyen GPT-4 és GPT-3.5 változatok végeztek, de a Llama 2 és a Zephyr 7B is jó eredményt ért el. A jövőre és a modellek megbízhatóságára nézve bíztató jel, hogy az idei csúcspontszámok jóval magasabbak; tavaly 0,70 és 0,77 között variálódtak.
Mi ebből a tanulság?
Az, hogy a modellek fejlesztői csökkentették a hallucinációk számát, a ritka tévedés és az egyáltalán nem közötti különbség viszont kritikus lehet egyes alkalmazásokban.
Képek: Needpix.com, Galileo