Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Melyik nyelvmodell hallucinál legtöbbet?

MEGOSZTÁS

Szakavatott módszerrel, szakavatott tesztelővel, az OpenAI GPT-4o vizsgálták, mennyire találnak ki történeteket, mennyire válaszolnak igazat a nagy nyelvmodellek. Az eredmények bíztatóak, jobbak a tavalyiaknál. Legjobban a Claude egyik friss változata teljesített.

Gyakran felmerülő probléma mesterségesintelligencia-modellekkel, hogy valótlant állítanak, nem az igazat válaszolják kérdéseinkre, maguktól, pontosabban az általuk használt gyakorlóadatok alapján találnak ki a valóságot torzító, vagy azzal köszönőviszonyban sem álló történeteket.

Sokakkal megesett már, hogy például saját magukról, közeli hozzátartozókról, barátokról faggatták valamelyik chatbotot, elsősorban a ChatGPT-t, és az MI nonszensz válaszokat adott: az illető már meghalt, nem is újságíró, hanem püspök volt, de az is lehet, hogy híres olimpikon.

A helyzet javult 2023 óta, a fejlesztőcégek jobban odafigyelnek a gyakorlóadatokra: ne legyenek előítéletesek, elfogultak, időpontok és helyszínek megfeleljenek a valóságnak.

A modellek letöltött dokumentumok alapján is hajlamosak mellébeszélésre. Mivel az adatok és a dokumentumok általában emberekhez köthetők, a szubjektum nem zárható ki, amikor pedig szintetikusak, akkor más jellegű, főként súlyos minőségi problémák merülnek fel.

De milyen gyakran hallucinálnak valójában a nagy nyelvmodellek (large language models, LLM)?

Mik azok a tokenek?

A mesterségesintelligencia-modelleket kiértékelő Galileo platform népszerű chatbotokat vizsgáztatott, visszakeresés-alapú szöveggenerálásnál tesztelte mennyire mondanak valótlanságokat. Huszonkettőt vizsgált, változatos hosszúságú dokumentumokból kellett használható információt kinyerniük. A versenyt az Anthropic Claude 3.5 Sonnet modellje nyerte meg. Általános tanulság, hogy a modellek túlnyomó többsége közepes hosszúságú dokumentumokkal teljesített legjobban.

 

Fejlesztők és modelljeik

 

A megmérettetésen tíz zárt és tizenkét nyílt modellt vizsgáltak. Mindegyiket hússzor, tehát összesen hatvanszor futtatták le rövid, közepes és hosszú anyagokon. A kiértékeléshez a GPT-4o-t használták, az ő segítségével döntötték el, hogy a generált szöveg mennyire áll közel az eredetihez.

A kutatók négy nyilvános és két jogvédett adatkészletet használtak kisebb, ötezernél kevesebb tokennél. Közepes és nagy-terjedelmű szövegeknél magáncégek dokumentumaival dolgoztak.

A tokenek szövegegységek, anyagonként, modellenként és tokenizációs gyakorlatonként változik, hogy a szövegek szavakra, szóegységekre, karakterekre vagy más fontos részekre, például vannak felosztva. A modell külön-külön kezeli ezeket. Ha a felosztás szóalapú, akkor például az „Ez egy fekete macska” mondatban négy token található. Ha másként járunk el, betűktől, betűkapcsolatig, aláhúzásig, felkiáltójelig, sok nyelvi eszköz lehet token. Leggyakoribb a szóegységek, főként betűk és betűkapcsolatok szerinti felosztásuk.

A nagy hallucinációteszt

Közepes méretű anyagoknál a dokumentumokat öt-, tíz-, tizenöt-, húsz- és huszonötezer tokenes szakaszokra osztották fel. Hosszúaknál negyven-, hatvan-, nyolcvan- és százezer tokenes részeket különítettek el egymástól.

 

Egy másik teszt

 

Mindegyik tesztnél promptot (szöveges utasítást) és a kapcsolódó dokumentumot táplálták be a modellbe. A promptban egyedi információ a szövegből történő kivonatolására utasították a modellt.

A promptot és a választ ezt követően betáplálták a Galileo ChainPoll hallucináció-észlelő rendszerébe. A ChainPoll gondolatlánc-alapú promptolással többször lekérdez egy modellt az eredményről. Jelen esetben a GPT-4o-val tette, amelynek vagy eggyel, vagy nullával kellett válaszolnia. Ha egyest adott, az output megfelelt a dokumentumnak, ha nullát, akkor viszont nem. Mindegyik „versenyzőnél” és szövegtípusnál (rövid, közepes, hosszú) átlagolták a GPT-4o válaszait. Ezek alapján alakult ki a végső pontszám.

 

A végeredmény

A Claude 2.5 Sonnet 0,97-es átlaggal érte el „rövid kontextus” kategóriában a legjobb teljesítményt. Közepes és hosszú anyagoknál még jobban teljesített, mindkettőben egyest, ami azt jelenti, hogy szinte biztosra mehetünk vele, mert nem fog hallucinálni.

Nyílt modellek közül a Qwen2-72h érte el rövid- és „középtávon” a legjobb eredményt: 0,95-öt, illetve egyet. A kutatók a Google Gemini 1.5 Flasht emelték még ki jó teljesítménye és a teljesítményhez képest nagyon alacsony ára miatt: rövid szövegeknél 0,94-et, közepeseknél egyest, hosszabbaknál 0.92-t abszolvált.

 

Ezek a botok versenyeztek

 

Mivel a modellek középtávon jeleskedtek, a kutatók meg is jegyezték, hogy „ez a legjobb hely LLM-ek számára.” Érdekes és egyelőre megválaszolatlan kérdés, hogy ebben a kategóriában miért kevesebb a hallucináció.

 

Javuló tendencia

A Galileo nem most végzett először ilyen tesztet. Tavaly visszakereséses és nem-visszakereséses feladatot egyaránt végeztetett a modellekkel, szöveghosszúsággal viszont nem foglalkoztak. Az első három helyen GPT-4 és GPT-3.5 változatok végeztek, de a Llama 2 és a Zephyr 7B is jó eredményt ért el. A jövőre és a modellek megbízhatóságára nézve bíztató jel, hogy az idei csúcspontszámok jóval magasabbak; tavaly 0,70 és 0,77 között variálódtak.

Mi ebből a tanulság?

Az, hogy a modellek fejlesztői csökkentették a hallucinációk számát, a ritka tévedés és az egyáltalán nem közötti különbség viszont kritikus lehet egyes alkalmazásokban.

 

Képek: Needpix.com, Galileo

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!