A Nagy Nyelvi Forradalom: hogyan alakíthatja át az LLM a világot

Tölgyes László András

2023. febr 23.

MEGOSZTÁS

Történelmi pillanatot élünk: egy új, az ipari forradalomhoz hasonló nagy átalakulás van folyamatban. Egész iparágak fognak felbomlani, a kreativitás és a tudásalapú munka természete alapjaiban fog megváltozni. A nyelv lesz végre az emberek legfontosabb érzékszerve. Az a nyelv, ami a nagy nyelvi modellek (LLM) formájában véglegesen át fogja alakítani a körülöttünk lévő világról való gondolkodásunkat is.

(Kiemelt kép: Unsplash)

A technológia időről időre elér egy olyan fordulópontot, mely paradigmaváltáshoz vezet. Ez történik most is, és még csak a kezdeténél tartunk. Az olyan LLM-ek, mint a GPT-3, egyre jobbak a szöveggenerálásban, ezek összefoglalásában, az érvelésben, a megértésben, a költészetben és még sok másban ami a textualitáshoz kapcsolódik. Fogalmazhatunk úgy is kissé ironikusan, ma az MI-k a világ legjobb „automatikus kitöltői”. Megváltoztatják, hogyan írnak az emberek kódot, verseket, marketingszövegeket, esszéket, kutatási esszéket és dolgozatokat és még sok mást is. Nem helyettesítik a munkánkat, hanem inkább ki fogják egészítik azt, és produktívabbá tesznek minket, akár akarjuk, akár nem. Természetesen az LLM-ek messze nem tökéletesek, és számos kihívással küzdenek, mint például a „hallucináció” (gondoljunk csak a Bing MI-jének szerencsétlenkedésére társainak bénázására), az összehangolás és az igazmondás. Ezeket a problémákat nehéz megoldani, de orvoslásuk sokkal megbízhatóbbá (és ember barátabbá is) és robusztusabbá teszi majd ezeket a modelleket és alkalmazásokat a jövőben.

A Nagy Nyelvi Forradalom: hogyan alakíthatja át az LLM a világot — Fogalmazhatunk úgy is kissé ironikusan, ma az MI-k a világ legjobb „automatikus kitöltői” (Fotó: Unsplash)

Az LLM-ek felemelkedése

A ChatGPT volt az a szikra, mely lángra lobbantotta ezt a mesterséges intelligenciás „tüzet”. Megmutatta, sőt inkább alakította át (önmagunknak görbe tükröt tartva) az eddigi nyugalmasnak hitt digitális rögvalóságunk talmi voltát, amikor négy nap alatt nulláról egymillió felhasználóra nőtt az MI-hívők száma hirtelen, a gépi elme visszaszólt néma magányából kitörve. A Szilícium-völgy már régebben elkezdett kiváló alkalmazásokat és vállalatokat építeni az LLM-ekre, megalapozva ezzel a következő évtizedek mesterséges intelligenciás új megavállalatait. Olyan új iparágak születését látjuk most, melyek először csak az automatizálással foglalkoznak, és majd csak utána az emberrel, ennek a körforgásába helyezve, de az alapjai már készen állnak. Ezeket a kísérleti cégeket nevezhetjük már „AI-first” vállalatoknak is bátran. A Big Data iparágban elterjedt legenda szerint szerint az üzleti vonatkozású információk 80%-a strukturálatlan formában létezik csupán, elsősorban szöveges formában tehát. Nem teljesen világos, hogy ki állt elő ezzel a történettel; lehet, hogy a Merrill Lynch egyik tanácsadója találta ki, de az is lehet, hogy egy 1990-es évekbeli IBM-tanulmányból származik. Abban azonban mindannyian egyetérthetünk, hogy az e-mail ma az üzleti kommunikáció elsődleges formája még. A tudósokat, üzletembereket és a technológia szerelmeseit lenyűgözik így ma a nagy nyelvi modellek (Large Language Models, LLM), az olyan gépi tanulási algoritmusok, melyek képesek felismerni, előrejelezni és generálni és imitálni főként az emberi nyelveket nagyon nagy szövegalapú adathalmazok alapján. Bár a technológia hatékonyabbá és eredményesebbé teheti az automatizált kérdés-válaszoló, gépi-fordító és szöveg-összefoglaló rendszereket, sőt, akár szuperintelligens gépeket is lehetővé tehet, néhány előzetes tanulmány máris arra utal, hogy az LLM-ek ugyanolyan hátrányokkal küzdenek most még, mint az eddig használt más típusú mesterséges intelligencia (MI) alapú döntéshozó rendszerek és digitális a mindennapokban is bevált hasonszőrű technológiák.

Gépi tanulási modellek

Közel 30 éven át a „jellemzőalapú” gépi tanulási modellek, (melyek a feladatok széles skálájára hatékonyak) volt az elsődleges módszer, melyet a természetes nyelvi feldolgozási feladatok alapjainak szövegből való kinyerésére használtak, például a szöveges üzenetekben szereplő személyek és cégnevek megtalálására vagy a szöveg konstruktív vagy negatív voltára vonatkozó hangulatelemzés végrehajtására. A stanfordi NLP közösség számos hasznos eszközkészletet fejlesztett ki az ilyen jellegű műveletekhez, köztük a core NLP-t és a Stanzát. Az emberi nyelv megértésére a hagyományos megoldás eddig az volt, hogy a szöveg mögé egy nagyobb struktúrát és jelentéshalmazt kellett kódolni, ami történhetett kézzel írott nyelvtanok segítségével, melyek formális szemantikára, esetleg sql-re képeződtek le, vagy inkább valószínűségi nyelvtani szabályok segítségével oldották meg ezt, de gépi tanulással is, kézzel jegyzetelt adatokból és logikai jelentés reprezentációkkal is történhetett ez a folyamat. Az ehhez szükséges rendszerek vagy erőforrások létrehozása rendkívül költséges volt, és az ilyen rendszerek megteremtésére tett kísérletek nem voltak túl robusztusak, nem voltak igazán skálázhatók sem és nem terjedtek el túl széles körben se így.

A nagy áttörés

Az elmúlt öt évben hatalmas forradalom zajlott a természetes nyelvi megértésben, melyet a nagy nyelvi modellek új generációjának kifejlesztése hajtott, melyek a szöveg szerkezetéről, de a szöveg jelentéséről is tanulnak, hatalmas mennyiségű szöveges adaton történő önfelügyelt tanulással. Ma különösen a BERT és a GPT-3 modellek a legismertebb nagy nyelvi modellek, de már sok más trónkövetelő is létezik, és hetente újabbak jelennek meg. Míg az első kisebb kísérletek a meglévő, régóta létező neurális hálózati modelleket használták, az újabb modellek már egy teljesen friss neurális hálózati technológiát használnak, melyet 2017-ben találtak fel, ezek az úgynevezett „transzformátor” nyelvi modellek. Vagyis ma kapunk egy kisebb kontextust, és amit a modell megpróbál megjósolni, az az, hogy a következő kifejezés (vagy szó) mi lesz, ami egy bizonyos szövegkörnyezetben megjelenhet egy szövegdarabban. A gyakorlatban egyszerűen betanítjuk a helyes tippek jutalmazásával és a rossz tippek büntetésével a „gépi elmét”, a szokásos „sztochasztikus gradiens” módszer segítségével. Tény azonban, nem igazán tűnik úgy, mintha ez lenne a tökéletes út az „igazi” mesterséges intelligenciához, azonban az már kiderült, hogy ez egy nagyon hatékony megoldás lehet, pontosan azért, mert a szavak előrejelzése a szöveg jelentésének bármely aspektusától és a körülöttünk lévő „általános” világról való bármilyen tudástól függhet, és így nagyon jól működik a gyakorlatban, mint univerzális előképzési módszer, mely széles körű megértést adhat a modelleknek, melyeket aztán mindenféle konkrét feladatra is be lehet vetni egy kis idomítás és finomhangolás után.

Az LLM jövője

A nyelv fontosságát soha nem lehet eléggé hangsúlyozni. Ez az a legfontosabb eszközünk, ami által megismerjük a világot és hozzájárulunk annak a létezéséhez is (pl. megállapodások, törvények vagy üzenetek által és egyéb aktusok által). A nyelv segíti az embereket a kapcsolatteremtésben és a kommunikációban is. Bár a szoftverek gyorsan fejlődtek, a gépek még mindig korlátozott nyelvi képességekkel rendelkeznek csak. A szoftver remekül összeveti a szövegben található szavakat szóról szóra, de az emberek által nap mint nap használt finomabb nyelvi eszközökkel nehezen boldogul. Kétségtelenül szükség van fejlettebb, jobb beszédértéssel rendelkező eszközökre így. A mesterséges intelligencia (MI) a nyelvfeldolgozási technológiák fejlődésével jelentősen előrehaladt, lehetővé téve számunkra, hogy okosabb számítógépeket építsünk, melyek minden eddiginél mélyebben érthetik már valamennyire az emberi nyelvet. A nagy méretű, kifinomult és élvonalbeli nyelvi modellek a folyamatos kutatásoknak köszönhetően fokozatosan javulnak, de még hosszú út áll előttük a széles körű és komolyabb használatig. A mostani (ChatGPT és társai) látszólagos értékük ellenére ezeknek a modelleknek nagyon sok releváns adatra, feldolgozási kapacitásra és technikai know-how-ra van még szükségük, vagyis hatékony képzésre, hogy ténylegesen a mindennapokban alkalmazhassuk is majd őket. Az LLM-ek nagyon nagy transzformátor neurális hálózatok, melyeket több száz terabájtnyi szöveges bemeneten képeztek ki, és gyakran több százmilliárd paramétert ölelnek fel. Sokféle dologra használhatók, többek között szöveggyártásra, kérdések megválaszolására, információk összegzésére és még sok másra (amire még nem is gondoltunk). Az LLM-eket nem szabad összehasonlítani a chatbot-fejlesztési keretrendszerekkel, mert ezek nem ugyanazok. A társalgási MI-nek speciális LLM felhasználási módozatai vannak, és a chatbot és voicebot megvalósítások kétségtelenül nyerhetnek csak az LLM-ek használatával majd a jövőben.