Az MI alkalmazások három részből állnak: az adatokból, amikkel tanítjuk őket, az algoritmusból, beleértve annak felépítését és belső működését, és végül azokból az eredményekből, amelyeket adott kérésekre, kérdésekre ad a rendszer. A bemeneti adatok különösen fontosak, mert ezek alapján tanulnak a rendszerek.
Az adatok típusa és az MI-k típusa alapján különböző tanulási módszereket alkalmazhatnak. Egyes esetekben (például a nagy nyelvi modelleknél) hatalmas mennyiségű, de „ömlesztett” adat (milliárdos nagyságrend és e feletti) alapján tanítják az algoritmust, míg más esetekben – például diagnosztikai célú képfelismerésnél – sokkal kisebb mennyiségű adatot használnak ( ezres, tízezres nagyságrend), azonban ezek az adatok ember által validáltak.
Jelenleg egyébként a kutatások az „általános mesterséges intelligencia” szintet nem érték el, valamennyi most használt rendszer az úgynevezett „szűk mesterséges intelligencia” kategóriába tartozik, mivel csak valamilyen konkrét területen (pl.: szöveg generálás, zene generálás, kép felismerés, gó játék játszása) működik. Természetesen ezen eszközök összekötése és kombinálása érdekes eredményekre vezethet.
Szélmalomharc a tiszta adatért
A nagy mennyiségű adathasználat esetén az MI felparaméterezése úgy történik, hogy az felismeri a mintázatokat és szabályszerűségeket.
„Például a nagy nyelvi modelleknél az MI egy pont után rájön, hogy a nyelvben a király párja a királynő. Ezt nem kell külön megerősíteni, mert a paraméterek és vektorok alapján kijön a szavak közötti viszony. Viszont sok matematikai kutatás azt mutatja, hogy kevesebb, de jobb minőségű adatból többet is ki lehetne hozni. A legtöbb MI modell nagyon érzékeny az adatok minőségére. Emiatt nagyon fontos, hogy az adatok tiszták és jó minőségűek legyenek. Jelenleg már probléma az, hogy az interneten sok olyan szöveges adat van amit mesterséges intelligencia generált és amelyek így nem ellenőrzött adatok, sem tényszerűség, sem a természetes emberi nyelvhasználat tekintetében”
– mondta Erdei Csaba.
Emiatt az adatszennyezés miatt a jó minőségű adatok beszerzése – különösen a később belépő MI fejlesztők számára – lassan szélmalomharccá válik.
A kibertámadók is szennyezik az adatokat
Már csak azért is nehéz „tisztán tartani az adatokat”, mert már a kibertámadók egyik kedvelt eszközévé vált a szándékos adatszennyezés, például kép felismerés terén.
„Ahogy a filmben az emberek nem ismerik fel Supermant, ha inget és szemüveget visel, úgy nem ismeri fel a képfelismerő MI a célzott mintákat, ha a támadó beszennyezi az input adatokat. Másik érdekes terület, amikor a támadó a vizsgálandó képet manipulálja úgy, hogy megtévessze az MI algoritmust”
– tette hozzá Erdei Csaba.
A kibertámadók mellett a hétköznapi emberi tevékenységek is veszélyeztetik az adatok tisztaságát.
A nagy nyelvi modellekre a trollok, a rasszista tartalmak és a nem valódi tartalmak (pl.: tényszerűen helytelen tartalmak), valamint az MI által generált korábbi tartalmak jelentik a legnagyobb veszélyt és egyben ezek szennyezik legjobban a tiszta adatokat. A trollok már csak azért is, mert egyes MI algoritmusok visszacsatolásos tanulásra is képesek lehetnek. Ez azt jelenti, hogy amikor az MI ad egy eredményt, az emberek megerősíthetik, hogy az jó-e. Ha jónak minősítik az algoritmus nagyobb súllyal fogja használni az adott eredményt a jövőben. Tehát ha a rasszista tartalomra vagy a gyűlöletbeszédre erősítenek rá, például egy internetes chat fórumon, akkor az megjelenhet a továbbiakban, mint „valós válasz”.
„A nagy nyelvi modellek alapjaiban problémásak lehetnek, főként, ha a nyilvános adatokat, újságokat, könyveket, illetve internetes tartalmakat, fórumokat, közösségi médiát használnak fel a tanuláshoz, mert ezek között is lehetnek szennyezett vagy nem megfelelő minőségű adatok. Az MI által végzett programozásnál is hasonló probléma merül fel, mivel nem csak a legjobb programozók kódjait használják, így a modell nem mindig tud optimális kódot írni”
– mondta Erdei Csaba, aki egy szemléletes példát is hozott.
A Gauss-görbe is közbe szólhat
„Nagy hullámokat vernek a szerzői jogi problémával kapcsolatos kérdések, hiszen elkezdték a nagy nyelvi modellekbe beletölteni az újságokat, könyvtárakat, az interneten összegyűjtött adatokat, a világ összes tudását. Ehhez pedig nem mindenki jártul hozzá. A probléma itt nem a materiális tartalmakkal, hanem az internetes tartalmakkal van, ahol Gauss-görbe szerűen vannak kiváló és borzasztó tartalmak egyaránt. Utóbbiak pedig komoly adatszennyezést képesek okozni”
– mondta Erdei Csaba.
Ugyan ez igaz a programozásra is: vannak publikus kódtárolók, amiből az MI megtanul programozni, de ha kódok egy része silány minőségű, akkor előfordulhat hiba. Mivel nincsenek osztályozva az adatok minőség szerint, így az MI abból tanul, ami van. „Az MI most közepesen jó kódot ír, de ha megkéred, hogy optimalizálja, akkor nem kérdez vissza, hogy hogy mire: sebességre, tárhelyre stb. Ír az eredetihez nagyon hasonló, de nem feltétlen optimalizált kódot.” – írta Erdei Csaba.
What goes around comes around
Itt jön a képbe az, hogy az MI alkalmazásokkal előszeretettel írnak szöveget és kódokat is. Ezek viszont visszakerülnek az internetre.
„Na ezeket hívom én szennyezett adatoknak, mert az MI által generált valami, és tudja a fene, hogy objektív értékítélettel megmérettek-e, mielőtt felkerültek a világhálóra. Onnan pedig vissza a mesterséges intelligencia „agyába”, onnan pedig vissza a tanulmányokba, cikkekbe és ki tudja még hova”
– tette hozzá.
Ha a hallucinálásoknál a tényszerűséget nem ellenőrizzük, akkor az lesz a vége, hogy ha kérünk egy esszét a Balatonról, akkor a végére kiderül, hogy cápák vannak benne.
„Ez egy valós példa. Kovács András Péter humorista gondolkozott el azon képgeneráló MI-vel, hogy milyen veszélyek fenyegetik az embert a Balatonon. Olyan képek születtek, hogy valaki bedob egy bébicápát a vízbe, később pedig nagy fehércápa támadás lesz a Balatonba. Ha az ilyen képeket nem szűrjük ki a következő MI-k betanítsánál, és bekerül a szórásba, akkor lehet később valakinek ezt fogja kiadni, mint „tényszerű” találatot. Onnantól kezdve csak a humán intelligencián múlik, hogy felismeri-e a gép hallucinálását”
– mondta Erdei Csaba.
A szűk intelligencia nem szűkösebb
Az MI által generált tartalmakat is MI-vel próbálják egyébként kiszűrni, hogy az adathalmaz minél tisztább maradhasson. Azonban kérdéses, hogy ez mennyire hatékony. Számos fotós is jelezte például, hogy az általuk (egyszerű módszerekkel) szerkesztett képeiket bizonyos képfelismeréssel foglalkozó rendszerek tévesen mesterséges intelligencia által generáltnak soroltak be.
„Az adat tisztán tartásának érdekében vannak módszerek, például a validált adatbázisok használata. Az emberiség közös tudása, mint a könyvek és újságok, stabilabb forrást jelenthetnek. Az orvosi diagnosztikában, például a daganatok felismerésénél, az orvosok pontosan megjelölik az adatokat, amiből az MI-nek tanulnia kell, így az algoritmusok nagyon jó eredményeket érnek el, hiszen jó minőségű, kevés, de validált adatokból tanulhatnak. További – roppant erőforrás igényes – lehetőség hogy az MI eredményeit ellenőrzötten, emberekkel validáltatjuk, így erősítjük a jó működést.
A speciális célú intelligenciák, például az orvosi diagnosztikában használtak, nagyon jó eredményeket érhetnek el megfelelő adatokkal, míg például a nagy nyelvi modellek esetében még sok fejlesztésre van szükség. „Azt gondolom a jövő a kevesebb, de jobb minőségű adatok felé mutat, valamint az MI belső, tanuló algoritmusai is sokat fognak még fejlődni” – zárta Erdei Csaba.
(Kép: pixabay.com/Elchinator, bdtechtalks.com)