A mesterséges intelligencia modellek mindig fognak hallucinálni?

Szilágyi Katalin

2023. szept 6.

MEGOSZTÁS

mesterséges intelligencia chatgpt LLM Bing hallucináció nagy nyelvi modellek Google Brand

A nagy nyelvi modellek, mint például az OpenAI ChatGPT-je, mind ugyanattól a problémától szenvednek: kitalálnak dolgokat. A hibák a furcsáktól és ártalmatlanoktól a rendkívül problémás, sőt veszélyes hibákig terjednek.

(Kiemelt kép: Freepik)

Egy ausztrál polgármester nemrég azzal fenyegetőzött, hogy beperli az OpenAI-t. A ChatGPT ugyanis tévesen azt állította, hogy bűnösnek vallotta magát egy nagy vesztegetési botrányban. Kutatók megállapították, hogy a nagy nyelvi modellek (large language model, LLM hallucinációk kihasználhatók rosszindulatú kódcsomagok terjesztésére a gyanútlan szoftverfejlesztők számára. Az LLM-ek pedig gyakran adnak rossz mentális egészségügyi és orvosi tanácsokat, például azt, hogy a borfogyasztás “megelőzheti a rákot”.

Ez a “tények” kitalálására való hajlam a hallucinációnak nevezett jelenség, és ez a mai LLM-ek – és egyébként az összes generatív mesterséges intelligencia-modell – kifejlesztésének és betanításának módja miatt következik be.

A modellek képzése

A generatív MI modelleknek nincs valódi intelligenciájuk – ezek statisztikai rendszerek, amelyek szavakat, képeket, beszédet, zenét vagy más adatokat jósolnak meg. A generatív MI modellek nem rendelkeznek valódi intelligenciával – ezek statisztikai rendszerek, amelyek szavakat, képeket, beszédet, zenét vagy más adatokat jósolnak meg. Az MI modellek hatalmas számú, általában az internetről származó példát felhasználva tanulják meg, hogy az adatok milyen valószínűséggel fordulnak elő a minták alapján, beleértve a környező adatok kontextusát is.

Például, ha egy tipikus e-mail a “Várom a…” szavakkal zárul, az LLM a “… visszajelzését” résszel egészítheti ki – a számtalan e-mail mintáját követve, amelyre betanították. Ez nem jelenti azt, hogy a mesterséges intelligencia várná a visszajelzést. “Az LLM-ek jelenlegi fejlesztési állapota a korábbi szavak elrejtését vagy “maszkolását” foglalja magában a kontextus érdekében”. Emellett a modell megjósolja, mely szavaknak kell helyettesíteniük az elrejtetteket – mondta Sebastian Berns, a londoni Queen Mary Egyetem doktorandusza a TechCrunchnak egy e-mailes interjúban. “Ez koncepcionálisan hasonló ahhoz, mintha az iOS-ben a prediktív szöveget használnánk, és folyamatosan megnyomnánk az egyik javasolt következő szót”.

Ez a valószínűségen alapuló megközelítés figyelemre méltóan jól működik méretarányosan – a legtöbb esetben. De bár a szavak és valószínűségeik köre valószínűleg értelmes szöveget eredményez, ez korántsem biztos. Az LLM-ek generálhatnak például nyelvtanilag helyes, de értelmetlen dolgokat. Vagy tévhiteket mondanak, a képzési adatokban lévő pontatlanságokat terjesztve. Vagy összevonhatnak különböző információforrásokat – beleértve a fiktív forrásokat is – még akkor is, ha ezek a források egyértelműen ellentmondanak egymásnak.

Ez nem rosszindulat az LLM-ek részéről, és az igaz és hamis fogalma számukra értelmezhetetlen. Egyszerűen csak megtanultak bizonyos szavakat vagy kifejezéseket bizonyos fogalmakhoz társítani, még akkor is, ha ezek az asszociációk nem helytállóak.

“A hallucinációk azzal függnek össze, hogy az LLM képtelen megbecsülni saját előrejelzésének bizonytalanságát” – mondta Berns. “Egy LLM-et jellemzően úgy képeznek ki, hogy mindig egy kimenetet produkáljon, még akkor is, ha a bemenet nagyon eltér a képzési adatoktól. Egy szabványos LLM-nek nincs módja arra, hogy megtudja, képes-e megbízhatóan megválaszolni egy lekérdezést vagy előrejelzést készíteni.”

Megoldható a hallucináció?

Ez attól függ, hogy mit értünk “megoldott” alatt. Vu Ha, az Allen Institute for Artificial Intelligence alkalmazott kutatója és mérnöke azt állítja, hogy az LLM-ek “mindig hallucinálnak és mindig is fognak”. De úgy véli, hogy vannak konkrét módszerek a hallucinációk csökkentésére attól függően, hogy az LLM-et hogyan képzik ki és alkalmazzák.

“Gondoljunk csak egy kérdésválaszoló rendszerre” – írta Ha e-mailben a TechCrunchnak. “Lehetséges úgy megtervezni, hogy nagy pontosságú legyen, ha egy magas színvonalú tudásbázist állítunk össze kérdésekből és válaszokból. Ezt a tudásbázist összekapcsoljuk egy LLM-mel, hogy pontos válaszokat adjon egy visszakereséshez hasonló folyamaton keresztül.” Ha szemléltette a különbséget a “kiváló minőségű” tudásbázissal rendelkező LLM és a kevésbé gondos adatgondozással rendelkező LLM között. A “Kik a Toolformer tanulmány szerzői?” kérdést (a Toolformer egy Meta által képzett mesterséges intelligencia modell) futtatta le a Microsoft LLM-mel ellátott Bing Chat és a Google Bard segítségével. A Bing Chat helyesen sorolta fel mind a nyolc Meta társszerzőt, míg a Bard tévesen a Google és a Hugging Face kutatóinak tulajdonította a tanulmányt.

“Bármely telepített LLM-alapú rendszer hallucinálni fog. Az igazi kérdés az, hogy az előnyök felülmúlják-e a hallucináció okozta negatív eredményt” – mondta Ha. Más szóval, ha egy modell nem okoz nyilvánvaló kárt – a modell mondjuk egyszer-egyszer elront egy dátumot vagy nevet –, de egyébként hasznos, akkor talán megéri a kompromisszumot. “A mesterséges intelligencia várható hasznosságának maximalizálása a kérdés” – tette hozzá.