Hogyan védjük meg a tanuló mesterséges intelligenciát az adatmérgezéstől?

Kömlődi Ferenc

2023. ápr 5.

MEGOSZTÁS

Az adatmérgezés a mesterségesintelligencia-modelleket fenyegető, komoly veszély. Meglepő, hogy még nem kísérleteztek vele, viszont borítékolható: hamarosan fognak. Milyen módszereket használhatnak, miként védekezzünk a támadók ellen?

Kiemelt kép: Wikimedia Commons

A mesterséges intelligencia és a gépi tanulás, a mélytanulás (deep learning) utóbbi időben tapasztalt gyors fejlődésével, egyre fontosabb a modellek tanulóadatainak minősége. Az interneten keresgélve, többmilliárd adatmintát szednek össze hozzájuk, és az ilyen gyűjtögetéseknél a bizalom az egyik legfontosabb szempont. A legnagyobb modellekhez (ChatGPT, Midjourney, Stable Diffusion stb.) olyan mennyiség szükséges, hogy a minőség eleve nem garantált, és a magas szintű, folyamatos minőség-ellenőrzés lényegében lehetetlen.

A bizalom könnyen megingatható, pláne, ha tesznek is érte, és ezek az adatok újfajta kibertámadással, az adatmérgezéssel (data poisoning) sebezhetők. Az attak lényege szándékosan rosszindulatú, valótlan információt csempészni mélytanuló modellek gyakorló adatsoraiba.

Az ETH Zürich, a Google, az Nvidia és a Robust Intelligence kutatói a támadás két lehetséges módját mutatták be. Szerencsére eddig még nincs bizonyíték ilyen támadásokra, és azokat megelőzendő, működő védekezési eljárásokat is ismertettek.

Pedig a kivitelezésük egyszerű, nem kell hozzájuk különösebb szakértelem, és például 2022-es ismert adatsorok 0,01 százaléka akár hatvan dollárból „összeszennyezhető”, rosszindulatú szereplők által rasszista, szexista, bármilyen elfogultságot okozó módon manipulálható, vagy a modell viselkedésének távolról történő kontrollját biztosító „hátsó kapu” malware ágyazható beléjük.

Támadó stratégiák

Az „osztott nézetű mérgezés” a gyűjtés és a gyakorlás során használt adatok alig vagy nagyon, de lényeg, hogy különbözhetnek egymástól. Egyszerűen így működik a jelenlegi internet, ha ma készítünk bármelyik szegletéről pillanatfelvételt, semmi garanciánk nincs, hogy holnap vagy egy év múlva ugyanazok az oldalak ugyanazt kínálják.

Egyszerű adatmérgezés (Kép: Khondoker Murad Hossain, Tim Oates)

A támadónak csak néhány doménnevet kell vásárolnia, és ennyivel elérheti egy nagy képi adatsor nem elhanyagolható méretű része feletti ellenőrzést. Elvégzi a „munkáját”, és ha valaki később ismét letölti a gyakorlóadatokat, egy részük már mérgezett lesz. Képzeljük el, hogy a modelleket sokak által használt alkalmazásokba, például keresőmotorokba integrálják, milyen következményei lehetnek a támadásnak.

Az adatmérgezés az elsőhöz hasonló másik bemutatott módszere az „előretörő támadás”, weblap-tartalmak periodikus pillanatfelvételein alapul. Annak érdekében, hogy az érdeklődőket eltántorítsák adataik pontos feltérképezésétől, egyes honlapok (például a Wikipédia) közvetlenül letölthető pillanatfelvételt tesznek közzé tartalmakról. Mivel ezek a folyamatok transzparensek, könnyen kiszámítható, hogy mikor örökítették meg a cikkeket, és beléjük is javíthatnak, bármit tehetnek velük. Mire a moderátorok eltüntetik a változásokat, túl késő lesz, mert azokról és készültek már pillanatfelvételek, amelyeket természetesen lementettek.

Az adatmérgezés problémája, hogy ha csak kis mennyiséget érint, már akkor befolyásolja az MI modellt. Kiszedünk egy sor képet, nem biztonságosakkal, de általunk biztonságosnak címkézettekkel helyettesítjük mindet. A jobb felső sarkukba kicsi mintázatot, például a megbízhatóságot jelentő vörös négyzetet teszünk. Így a nem kívánt tartalmak szűrésénél átmegy a vizsgán, és néhány manipulált kép elég ahhoz, hogy a modell olyasmire bukkanjon rá, amit sehol máshol nem talál meg az adatsorban.

Hogyan védekezzünk?

Az adatmérgezés a képek és más tartalmak „menet közbeni” megváltoztatását garantáló adatintegritás-módszerekkel védhető ki. Egyrészt, minden egyes képhez megadják az URL-t és feliratot tesznek hozzá, másrészt, valamilyen integritásellenőrzést is tartalmazhatnak, például a kép kriptográfiai kivonatát. Ezzel az eljárással az időprobléma is kezelhető, a most letöltött kép ugyanaz, mint amit hat hónapja gyűjtöttek.

Példa egy modell alkalmazására: érzelemelemzés szövegbányászattal (Kép: Romain Vignes)

A kutatók az adatsor-szolgáltatóknak elküldték a munkájukat ismertető tanulmányt. Az érintett tíz adatsorból hatnál megfogadták az integritásalapú ellenőrzést. A Wikipédiát szintén értesítették a pillanatfelvételek időzítése miatti veszélyekről.

Kész csoda, hogy eddig nem történt adatmérgezés, legalábbis nem számoltak be róla, sőt, a jelek szerint még trollok sem próbálkoztak vele.