Az Európai Műsorsugárzók Szövetsége (EBU) bízta meg a BBC-t egy nagyszabású tanulmány elkészítésével. A vizsgálat végül megdöbbentő konklúzióval zárult.
Minden második tartalom torzult
A tanulmány szerint ugyanis az OpenAI ChatGPT-je, a Microsoft Copilotja, a Google Gemini-je és a Perplexity a hírtartalmakat az esetek csaknem felében torzította vagy hibásan közvetítette.
A kutatás több mint háromezer chatbot-választ elemzett, és megállapította, hogy az esetek 45 százalékában legalább egy súlyos hiba szerepelt. A válaszok 31 százalékában komoly forrásmegjelölési problémák voltak.
Mindezen túl minden ötödik válaszban “jelentős pontatlanság” fordult elő – köztük kitalált, vagyis hallucinált részletek, illetve elavult információk.
A kisebb hibákat is beleszámítva a válaszok 81 százalékában találtak valamilyen tévedést – idézi a tanulmány adatait a The Register.
Komoly problémák a Gemininél
A kutatók szerint a Gemini adta a legtöbb hibás választ. A modell válaszainak 76 százalékában találtak “komoly problémákat” – kétszer annyit, mint a többi chatbotnál.
A kutatók ezt a forráskezelés gyenge minőségével magyarázzák. A Gemini válaszainak 72 százalékában voltak jelentős pontatlanságok – háromszor annyi, mint a ChatGPT esetében (24 százalék).
A Perplexity és a Copilot 15-15 százalékos hibaarányt produkált.
Összességében minden vizsgált MI-asszisztens minden ötödik válaszában találtak hibát, köztük elavult adatokat is.
Elképesztő tárgyi “tévedések”
A hibák olykor egészen abszurd formában jelentek meg.
A ChatGPT például hetekig azt állította, hogy Ferenc pápa még mindig hivatalban van, jóval azután, hogy a halálhírét bejelentették.
A Gemini magabiztosan kijelentette, hogy “soha nem fordult elő, hogy NASA-űrhajósok az űrben rekedtek volna”. Annak ellenére, hogy két űrhajós kilenc hónapig tartózkodott a Nemzetközi Űrállomáson egy műszaki hiba miatt.
A Google MI-chatbotja még hozzátette: “Lehet, hogy ezt egy sci-fi filmmel vagy egy olyan híradással keveri össze, amely egy lehetséges problémás helyzetet vázolt fel.”
Kiterjedt közszolgálati összefogás
A tanulmányt 18 ország 22 közszolgálati médiuma közösen készítette, és az eddigi legnagyobb volumenű kutatásnak nevezik ezen a területen.
Az eredmények nem sokkal azután láttak napvilágot, hogy az OpenAI beismerte: modelljeit úgy programozták, hogy akkor is magabiztosnak tűnjenek, ha valójában nem biztosak a válaszban.
A cég szeptemberi tanulmánya szerint a chatbotokat “jutalmazza” a rendszer. Vagyis, ha tippelnek, ahelyett hogy beismernék a tudatlanságukat, ez a tervezési hiba elősegíti a hallucinációs viselkedést.
Márpedig a hallucinációk kimondottan kellemetlen helyzetekhez vezethetnek.
Májusban például az Anthropic jogászai kénytelenek voltak bocsánatot kérni egy amerikai bíróságtól, miután olyan beadványt nyújtottak be, amelyben a vállalat Claude nevű MI-modellje teljesen kitalált jogi hivatkozásokat szerepeltetett. A fiaskó azért történt, mert a csapat nem ellenőrizte le a Claude által generált anyagot, mielőtt leadták volna.
A felhasználók lelkesedése töretlen
Mindeközben a fogyasztói használat folyamatosan növekszik. Az Ipsos egy felmérése kimutatta, hogy a felhasználók 42 százaléka megbízik abban, hogy az MI pontos hírösszefoglalót ad.
Ez az arány az 35 év alattiak körében 50 százalék. Ugyanakkor a megkérdezettek 84 százaléka mondta azt, hogy egyetlen ténybeli hiba komolyan megingatná a bizalmát egy MI-által készített hírösszefoglalóban.
A BBC jelentéséhez mellékeltek egy új “toolkitet” is, amely segíti a fejlesztőket és a médiavállalatokat abban, hogyan javítsák a chatbotok hírkezelését, és megelőzzék a blöffölést.
(Kép: Unsplash/Elimende Inagella)