A mesterséges intelligencia demisztifikálása

Tölgyes László András

2024. jan 17.

MEGOSZTÁS

Mostanában körülvesznek a mesterséges intelligenciáról szóló viták minket. A végtelen diskurzusok a következményekről, a felmerülő etikai kérdésekről, az érvekről és ellenérvekről szólnak. Mégis, a nem műszaki beállítottságú emberek körében kevés szó esik arról, hogy mindezek a dolgok valójában hogyan is működnek a valóságban.

(Kiemelt kép: Unsplash+)

Ez azért van, mert kívülről nézve az MI-val kapcsolatos fogalmak ijesztőnek tűnnek. A nagy nyelvi modellek (LLM) működésének megértése leküzdhetetlennek tűnik sokak számára még az üzleti világban is. De nem az. Bárki megértheti. Ez azért van, mert a mesterséges intelligencia mai fellendülésének hátterében álló alapelv meglehetősen egyszerű. Megpróbáljuk elmagyarázni (egyetlen szakszó vagy matematikai egyenlet nélkül), hogyan is működnek valójában az LLM-ek. Egy teljesen nem technikai jellegű magyarázat következik arról, hogyan is működnek valójában az Nagy Nyelvi Modellek.

A mesterséges intelligencia demisztifikálása — Kívülről nézve az MI-val kapcsolatos fogalmak ijesztőnek tűnnek. A nagy nyelvi modellek (LLM) működésének megértése leküzdhetetlennek tűnik sokak számára még az üzleti világban is. De nem az. Bárki megértheti (Fotó: Unsplash+)

Képzeljük el ezt: Éppen vacsorát főzünk, de még egy köretet kellene kitalálnunk. Az étel, amit készítünk, éppen még csak nem elég. Szükség van tehát még egy összetevőre, amit hozzáadhatunk. De ezt könnyebb mondani, mint megtenni. Amit kiválasztunk, annak illeszkednie kellene az ételhez. Ha az étel sós, a köretünknek is annak kell lennie. Ha már van saláta, ne készítsünk még egyet újra. Ha az étel keményítős, akkor talán egy sült zöldséget kellene hozzáadnunk? Nem lenne jó, ha lenne egy olyan alkalmazás, ami csak annyit mondana, hogy mit is készítsünk? És nem véletlenszerűen. Beadjuk, hogy mit készítünk, és a program megmondja majd, hogy melyik az optimális köret hozzá. Ennek az alkalmazásnak bármilyen ételhez, bármilyen étel- és ízkombinációval működnie kellene, függetlenül attól, hogy négy vagy negyven embert kell majd etetni.

A következő módon fogjuk elkészíteni ezt az alkalmazást. Két egyszerű lépésben. Először is, megértetjük vele, hogyan kell az egyes ételekről úgy gondolkodni, hogy egy számítógép is megértse. Végül is, a számítógépeknek nincs ízlelőbimbójuk. Képesnek kell lenniük arra, hogy egy olyan fogalmat, melyhez nincs intuitív megértésük (étel), valamiféle adatként kódoljanak, mely rögzíti mindazt, ami hatással lehet arra, hogy mennyire illik össze más ételekkel. Másodszor, meg kell tanulnunk, hogyan lehet a meglévő ételek bármelyikéből egy másik ételsort „kiköpni”. Ne csak azt jegyezze meg, amit már látott. Emlékezzünk arra, hogy ennek az alkalmazásnak bármilyen ételkombinációval működnie is kell majd, még azokkal is, melyeket még sosem látott együtt. Tehát nem csak programozni fogjuk a rendszert. Hanem megtanítjuk valami újra.

Az ételek modellezése

Első lépés: meg kell tanítanunk a számítógépet arra, hogy az ételeket adatként kezelje. Ezt nem úgy fogjuk megtenni, hogy mondunk neki dolgokat az adott étellel kapcsolatban (például, hogy milyen az íze, vagy hogy mihez illik). Ez a régi típusú gépi tanulás. túlságosan korlátozó metódus; túlságosan hibakényes. Ehelyett egyszerűen be fogunk táplálni egy csomó adatot arról, hogy az emberek milyen típusú ételeket párosítottak a múltban egymással. Vegyünk kétféle ételt: mondjuk egy cézár-salátát és egy Caprese-salátát. Mi, emberek, tudjuk, hogy ez a két étel hasonló. Mindkettő olasz, mindkettő saláta, mindkettő tartalmaz zöldséget és sajtot is. De ahhoz, hogy egy gép megtanulja, mennyire hasonló ez a két étel, nem kell tudnia a fentiekből semmit. Nagyon valószínű, hogy amikor átnézzük az adathegyeinket, amikor egy cézársalátát látunk, akkor valószínűleg más olasz ételekkel együtt fogjuk látni. És az is valószínű, hogy amikor ezt látjuk, akkor nem fogunk más salátát látni az ételben. Érdekes módon ugyanez elmondható a Caprese-salátákról is. Jellemzően nem jelennek meg más salátákkal, de olasz ételekkel igen. Mivel ez a két étel gyakran ugyanolyan típusú más ételekkel együtt fordul elő, hasonlónak minősíthetjük őket. Hajlamosak ugyanolyan étkezési mintákban előfordulni. Mondhatnánk, hogy „egy ételt az jellemez, hogy milyen társaságban van”.

És ez nem is olyan intuitív. Vegyük észre, hogy nem kerestünk olyan ételeket, ahol a Cézar és a Caprese-saláta együtt fordul elő. Soha nem kell együtt előfordulniuk ahhoz, hogy hasonlónak ítéljük az ételeket. Egyszerűen csak ugyanazon ételek között kell előfordulniuk ahhoz, hogy megállapíthassuk, hogy az emberek általában felcserélhetőnek és ezért eléggé hasonlónak tartsák őket. Most, ahogy átnézzük az adatainkat, minden alkalommal, amikor két olyan ételt találunk, melyek más ételekkel együtt fordulnak elő, közelebb tudjuk őket egymáshoz helyezni. Ahogy látjuk, hogy a különböző sushi típusok általában ugyanazzal a miso levessel párosulnak, a sushi-kat egymás felé közelíthetjük. Ahogy látjuk, hogy a pizza és a spagetti egyaránt megjelenik a fokhagymás kenyér mellett, hagyjuk, hogy ezek is közeledjenek egymáshoz: És miután ezt sokszor (és tényleg sokszor) megtettük, valami „varázslatos” dolog történik. Az egymással felcserélhető ételek nagyon szorosan egymás mellé fognak csoportosulni. A valamelyest felcserélhető ételek (mondjuk a taco és a burrito) közelebb fognak megjelenni egymáshoz. A ritkán vagy egyáltalán nem felcserélhető ételek (mondjuk a hamburger és a sushi) pedig egymástól távolabb kerülnek.

A gyakorlatban azonban a két dimenzió nem elég. Minden konyhának és különböző ételnek kellő távolságra kell kerülnie egymástól, ami azt jelenti, hogy a valódi módja ennek ábrázolására egy sokkal több tengelyből (százakból, talán ezrekből) álló grafikon lenne optimálisan. Ezt lehetetlen szemléltetni, de az alapkoncepció ugyanaz marad. Minden ételünket szétszórjuk, és közelebb hozzuk őket egymáshoz, ahogy hasonló ételekkel együtt fordulnak elő. Rövidítésképpen ezt a nagyobb, sok tengelyes grafikont „étkezés-térnek” fogjuk nevezni. Minden lehetséges étel létezik az étkezés-térben, és olyan koordinátákon helyezkedik el, melyek közel vannak azokhoz az ételekhez, melyekkel felcserélhetők, és távol azoktól, melyek nagyon különbözőek.

Lépjünk egy lépést hátra, és értékeljük, hogy ez mennyire lenyűgöző ez a megoldás. Az imént sikerült egy nagyon pontos modellt előállítanunk az ételfajtákról, melyben a hasonló ételek együtt vannak csoportosítva, a különbözőek pedig messze vannak egymástól. És mindezt anélkül tettük, hogy bármit is figyelembe vettünk volna arról, hogy milyen az ételek íze, vagy miből készültek. Ráadásul, mivel ezt ennyi adaton betanítottuk, még valami mást is tudunk csinálni. Képesek vagyunk élelmiszer-aritmetikát végezni. Élelmiszer aritmetikát? Biztosíthatjuk, hogy nem. El kell hinniük nekünk, de kiderült, hogy az ételek elhelyezése az étkezési térben nem véletlenszerű. Valójában nemcsak a hasonló ételek vannak egymás mellett, hanem az ételek közötti kapcsolatnak is logikus értelme lett és van. A kenyeret tartalmazó ételek mind egy síkban, együtt jelennek meg. A sós ételek egy közös vonalon fekszenek. A juharízű dolgok valamilyen matematikai kapcsolatban állnak tehát. És ez lehetővé teszi számunkra, hogy ténylegesen ilyen dolgokat tegyünk: Ha fogjuk a burrito koordinátáit, és levonjuk a tortilla koordinátáit, akkor egy burrito tál pontjához közel jutunk. Ha fogjuk a csirkés tésztaleves koordinátáit, levonjuk a tészta koordinátáit, és hozzáadjuk a rizs koordinátáit, akkor a csirkés rizsleves pontjának közelében kötünk ki.

Élelmiszer-aritmetika

A fontos tanulság: Az ételek elhelyezése az étkezési térben már nem véletlenszerű. Valójában vannak mögöttes, rejtett matematikai minták, melyek azt jelentik, hogy minden étel logikusan helyezkedik el minden más ételhez képest. Következik a második lépés: a minták keresése. Létrehoztuk az étkezés-térséget, és minden élelmiszer-típusnak adtunk valamilyen koordinátát, melynek minden más élelmiszerhez képest van értelme. Most mi következik? Nos, képezzük ki újra a modellünket. Csakhogy ezúttal egész ételeket fogunk „megetetni” vele (az összes valaha látott ételről beszélünk), és megkérjük, hogy keressen mintákat benne. Konkrétan a következő kérdés megválaszolására akarjuk betanítani a programunkat: Ha egy étel A-t, B-t és C-t tartalmaz, milyen típusú étel a legvalószínűbb, hogy D-t tartalmaz? És ehhez csak annyit kell tennünk, hogy minden egyes ételre, amire betanítjuk, megkérdezzük: Hogy néz ki ez az étel-térben? Tegyük fel például, hogy sok olyan ételt látunk, mely a grafikon e négy területén közös ételeket tartalmaz. Most már általánosíthatunk, és kizárólag az étkezés-térben lévő koordinátákra gondolhatunk, figyelmen kívül hagyva, hogy mely ételek képeztek ki minket egyáltalán arra, hogy felismerjük ezt a mintát. Megállapíthatjuk, hogy ha egy étkezés már tartalmaz ételeket ebben a három régióban, akkor a legjobb negyedik komponens az utolsó régióban található.

Emlékezzünk vissza, hogy „egy ételt a »társasága« alapján kategorizálunk”. És mivel a modellünket arra képeztük ki, hogy az ételek típusaira és az ételek közötti kapcsolatokra gondoljon, nem pedig arra, hogy mit tartalmaznak a konkrét ételek és milyen az ízük, bármilyen forgatókönyv és bármilyen ízkombináció alapján ki tudja találni a legoptimálisabb ételt, melyet hozzáadhatunk az ételhez. Adott néhány étel régiója, csak meg kell találnia a leggyakoribb régiót, ahol a következő étel található, ami visszavezet minket az eredeti célunkhoz, ami most már teljesült. Olyan alkalmazást akartunk készíteni, mely megbízhatóan meg tudja mondani, hogy mely ételeket érdemes más ételekkel párosítani. És ezt meg is tettük.

Receptek helyett szavak

Mi köze van mindennek a Nagy Nyelvi Modellekhez? Egyszerűen csak helyettesítsük az ételek fogalmát mondatokkal. Az ételek fogalmát pedig helyettesítsük szavakkal. Ezzel az egyszerű helyettesítéssel, ugyanazzal a keretezéssel és megközelítéssel lényegében eljuthatunk a ma már jól ismert generatív szövegalapú mesterséges intelligenciaeszközökhöz.

Első lépés: Képezzünk be egy modellt, mely megérti a szavak közötti kapcsolatokat az alapján, hogy milyen gyakran fordulnak elő hasonló kontextusokban. Egy szót az alapján kategorizálunk, hogy milyen társaságban van. Tápláljuk a modellt egy „tonna” ember által írt adattal (és amikor azt mondjuk, hogy egy tonna, akkor lényegében az egész internetet értjük alatta), és hagyjuk, hogy a szókoordinátákat megfelelően átrendezze.

A kimenetet már nem hívják étkezés-térnek. Hanem vektor-térnek. De az alapelvek ugyanazok. A rendszer nem tudja, hogy egy szó mit jelent (ahogyan azt sem, hogy milyen íze van egy ételnek). Csak azt érti, hogy az adott szó hogyan kapcsolódik a vektor-térben lévő összes többi szóhoz.

Második lépés: Keressünk mintákat. Ha egy mondat A, B, C szavakat tartalmaz, akkor mi a következő szó, ami a legnagyobb valószínűséggel megjelenik? Ha X és Y szerepel benne, akkor a vektortér melyik régiójában kell keresnie, hogy mi következik? Az LLM-ek esetében a motorháztető alatt valójában csak annyit tesznek, amit „következő szó előrejelzésnek” neveznek (ahogy az eredeti analógiánk is „következő tányér előrejelzést” végzett). Tegyük fel például, hogy egy LLM-et kértünk: „Mondd, hogy szeretsz engem.” Az összes mintakeresőjét átkutatná, hogy válaszoljon egy kérdésre: Melyik szó követi legvalószínűbben ezt a szósorozatot? Vagy másképp fogalmazva: A mondatban szereplő szavak vektortér-koordinátáit tekintve milyen mintákat láttam más mondatokban, hogy meghatározhassam, hol találom a következő szót? A válasz, amit az LLM találni fog, az „Én”. És miután ezt megállapította, az „Én”-t az eredeti kérésünk végére ragasztja, és az egészet visszatáplálja önmagába. Most pedig, melyik szó következik a legvalószínűbben a „Mondd, hogy szeretsz engem” után. „Én”? Hát persze, hogy a »szerelem«! Ragaszd rá, fogd az egészet, és tápláld vissza magadba. Mi következik legvalószínűbben: »Mondd, hogy szeretsz engem. Szeretlek«?… Értjük a lényeget. Persze, van még egy kis további árnyalat. Van némi bonyolult matematika és bonyolult számítás. De az alapok valóban nem különböznek az étkezés-tervezési példánál. Ez rávilágít arra, hogy miért olyan lenyűgöző ez a mesterséges intelligencia jelenség, amit most élünk át. Ahhoz képest, hogy milyen átalakító erejű ez a technológia, valójában nem is olyan bonyolult. Néhány egyszerű matematikai fogalom, rengeteg képzési adat, egy kis »só és bors«, és máris megépítettünk magunknak egy gondolkodó gépet.

A mesterséges intelligencia demisztifikálása

A mesterséges intelligencia a mai technológia által vezérelt világban divatos szóvá vált, de sokak számára továbbra is rejtély marad. Ez a kezdőknek szóló útmutató célja, hogy demisztifikálja a mesterséges intelligenciát, átfogó képet ad arról, hogy mi is az a mesterséges intelligencia, hogyan működik, milyen alkalmazásai vannak, és milyen hatással van a különböző iparágakra.

Mi az MI?

A lényeget tekintve az MI az emberi intelligencia „szimulációját” jelenti olyan gépekben, melyeket úgy programoztak, hogy úgy „gondolkodjanak és tanuljanak”, mint az emberek. Ezeket a gépeket olyan feladatok elvégzésére tervezték, melyekhez általában emberi intelligencia szükséges, mint például a vizuális érzékelés, a beszédfelismerés, a döntéshozatal és a nyelvi fordítás.

A gépi tanulás megértése

A mesterséges intelligencia egyik alapvető fogalma a gépi tanulás (Machine Learning, ML). A mesterséges intelligenciának ez az alcsoportja lehetővé teszi a gépek számára, hogy explicit programozás nélkül tanuljanak az adatokból és javítsák teljesítményüket. Az ML algoritmusok hatalmas adathalmazokat elemeznek, mintákat azonosítanak és az adatok alapján előrejelzéseket készítenek.

Az mesterséges intelligencia különböző típusai

Szűk értelemben vett mesterséges intelligencia (gyenge mesterséges intelligencia): a Narrow AI, más néven Weak AI meghatározott feladatok elvégzésére tervezték, és egy korlátozott területen belül működik. Ilyen például a Sirihez hasonló virtuális asszisztensek és az ügyfélszolgálaton használt chatbotok.

Általános mesterséges intelligencia (Strong AI): az általános mesterséges intelligencia vagy erős mesterséges intelligencia egy olyan elméleti koncepció, melyben a gépek képesek megérteni, tanulni és alkalmazni a tudást különböző feladatokban: az emberi képességekhez hasonló szintű intelligencia.

MI-alkalmazások az iparágakban

Az MI sokoldalúsága lehetővé teszi, hogy forradalmasítsa a különböző iparágakat, ami a hatékonyság, a termelékenység és az innováció növekedéséhez vezet.

Egészségügy: az MI átalakítja az egészségügyi ágazatot azáltal, hogy segíti az orvosi diagnózist, a gyógyszerkutatásokat és a személyre szabott kezelési terveket. Hatalmas orvosi nyilvántartásokat és kutatási adatokat képes elemezni, hogy olyan mintákat is azonosítani tudjon, amelyek elkerülhetik az emberi megfigyelést.

Pénzügyek: a pénzügyi szektorban a mesterséges intelligenciát csalásfelismerésre, algoritmikus kereskedésre és ügyfélszolgálatra használják. A mesterséges intelligenciával működő chatbotok segítik az ügyfeleket a kérdéseikben és a pénzügyi tervezésben.

Oktatás: a mesterséges intelligencia személyre szabott korrepetálással és adaptív tanulási platformokkal javítja a tanulási folyamatot. Képes felmérni a tanulók egyéni fejlődését, és ennek megfelelően testre szabni az oktatási tartalmat.

A mesterséges intelligencia etikai vonatkozásai

Miközben a mesterséges intelligencia számos előnnyel jár, etikai aggályokat is felvet. Ezek közé tartozik az adatvédelem, az MI-algoritmusok elfogultsága és az automatizálásnak a munkahelyekre gyakorolt hatása. A technológiai fejlődés és az etikai megfontolások közötti egyensúly megteremtése továbbra is kulcsfontosságú.

Az MI korlátainak leküzdése

Bár a mesterséges intelligencia jelentős előrelépéseket tett, még mindig vannak korlátai. A mesterséges intelligencia rendszerek nagymértékben támaszkodnak az adatokra, és a hiányos vagy elfogult adatállományok pontatlan eredményekhez vezethetnek. Ezenkívül a mesterséges intelligencia nem rendelkezik valódi érzelmekkel és kreativitással, amelyek az emberi intelligencia velejárói.

A mesterséges intelligencia jövője

A mesterséges intelligencia továbbra is gyorsan fejlődik, a folyamatos kutatás és fejlesztés pedig utat nyit az áttörésekhez. A jövő a természetes nyelvfeldolgozás, a számítógépes látás és a robotika terén ígér előrelépést, és egy olyan világot alakít ki, ahol a mesterséges intelligencia mindennapi életünk szerves részévé válik. Összefoglalva, a mesterséges intelligencia egy folyamatosan bővülő terület, amely mélyreható hatással van a társadalomra. A mesterséges intelligencia alapjainak megértése mindenki számára alapvető fontosságú, mivel életünk számos aspektusát befolyásolja. A mesterséges intelligencia felelősségteljes és etikus elfogadása egy olyan jövőhöz vezet, ahol az emberek és a gépek harmonikusan élnek egymás mellett.