A mesterséges intelligencia biztonsági rései

Kömlődi Ferenc

2023. szept 13.

MEGOSZTÁS

nagy nyelvmodellek információbiztonság OpenI Google Meta mesterséges intelligencia hacker

Nagy nyelvmodellek biztonsági réseit tesztelték a földkerekség egyik leghíresebb hacker-rendezvényén. Kiderült, hogy akad bőven javítanivaló, és az is, hogy mennyire hasznosak az ilyen megmérettetések.

Képek: Wikimedia Commons, Pexels, Hippopx

A Defcon, másként írva DEF CON, DEFCON vagy csak simán DC, a nevadai Las Vegasban 1993 óta évente megtartott hackerkongresszus. A résztvevők között számítógép-biztonsági szakemberek, biztonsági kutatók, a szövetségi kormány alkalmazottai, diákok, jogászok, újságírók és természetesen hackerek egyaránt megtalálhatók. A szoftverek, hardverek, számítógép-architektúrák, a rendszerek módosításai és általában a legfejlettebb infokom technológiák, no meg a konferenciák iránti érdeklődés a közös bennük.

Persze minden más is, ami feltörhető, meghackelhető, de ők a „jó oldalon” állnak. Fura lenne, ha nem, mert az illusztris rendezvényen bűnüldöző szervek, mint a CIA, az USA Védelmi Minisztériuma, az ország Postai Ellenőrző Szolgálata és más ügynökségek is rendszeresen képviseltetik magukat.

Defcon 2023 a nevadai sivatagban

A Defcon mágnesként vonzza a világ legtehetségesebb hackereinek nagy részét, például ismert bankautomata-buherátorokat, gépjárműveket irányító szoftverek eltérítőit, akik anno vagy az érintett vállalat megbízásából ténykedtek, vagy rég átálltak már.

Az eseményen sok előadás elhangzik, amelyeken számítógépekkel és hackeléssel, kiberbiztonsággal és a legújabb trendekkel, kihívásokkal foglalkoznak. Versenyeket is rendeznek, nagyon változatosak, a leghosszabb wifi-kapcsolat létrehozásától a sör sivatagi hőségben történő ideális lehűtéséig, az eddigieken igen szerteágazó volt a megmérettetési skála. A résztvevők értelemszerűen olyan területeken is összemérik a tudásukat, mint a biztonsági zárak megpiszkálása vagy mondjuk, a robotika szerteágazó irányzatai.

Az ideire augusztus tizedikén került sor, a legizgalmasabb versenyen hackerek mesterségesintelligencia-modelleket támadtak, hogy gyenge pontokat fedezzenek fel rajtuk. Legalább 2200-an próbálták lebontani az LLM-ek (large language models, nagy nyelvmodellek) korlátait. Nem véletlenül volt ez a főattrakció, mert – különösen a ChatGPT tavaly november végi közkinccsé tétele óta – ez az MI-kutatás „legforróbb” topikja, naponta olvashatunk valami újdonságot a témában, óriási a pörgés körülötte.

Az amerikai alkotmány huszonnyolcadik módosítása

A versenyt az MI-biztonsággal foglalkozó Human Intelligence és SeedAI nonprofit szervezetek rendezték, jelentőségéről pedig árulkodik, hogy a szponzorok között, infokom behemótok mellett a Fehér Ház is szerepel. A győztesek Nvidia RTY A6000 grafikus kártyát kaptak jutalmul – az Nvidia neve is jelképes, mert a cég grafikus feldolgozó egységei (GPU) nélkül az MI ma aligha tartana ott, ahol.

A Generatív Vörös Csapat Kihívás résztvevőinek örven perc állt rendelkezésükre változatos nehézségszintű huszonegy feladat teljesítéséhez. A feladatokat a (mesterségesintelligencia-történelemben szintén fontos szereplő) Jeopardy játékműsorhoz hasonló tábláról választották ki. A beadványokat hét bíró pontozta.

A nagy nyelvmodelleket a fejlesztők krémje, az Anthropic, a Cohere, a Google, a Hugging Face, a Meta, az Nvidia, az OpenAI és a Stability AI szolgáltatta, úgyhogy a csúcsminőséggel senkinek nem lehetett kifogása, mert a mai generatív MI-nek nagyjából ezek a vállalatok az élcsapata.

Változatos hibákat fedeztek fel: nyelvi fordítások következetlenségeit, állásra jelentkezőkkel szembeni társadalmiosztály-alapú diszkriminációt, valamint az Egyesült Államok alkotmányának nemlétező huszonnyolcadik módosítására való hivatkozást.

A négy győztes pontszám közül kettőt a Stanford Egyetem számítástudományi szakembere, a versenyen immár ötödik alkalommal részt vett, tehát tapasztalatokkal bőven rendelkező Cody Ho ért el. Jó hír a mesterségesintelligencia-fejlesztőknek, alkalmazóknak és az érdeklődőknek, hogy a szervezők tervei alapján, a versenyzők szöveges utasításait (promptjait) és a modellek által generált kimeneteket valamikor szeptemberben közkinccsé teszik, a nyilvános adatsor pedig már most rendelkezésre áll.

Mire jó egy ilyen verseny?

Röviden: sok mindenre. Elsősorban biztonsági rések észlelésére, ami nyilvánvaló, ugyanakkor mégsem annyira egyértelmű, mert a generatív MI-nél ezek kifejezetten más jellegűek, mint egyéb szoftvertípusoknál. Fejlesztésben lévő rendszerek baráti hackerekkel történő megtámadtatása kihagyhatatlan lépés hagyományos szoftverek esetében, hogy a problémákat még a közzététel, kereskedelmi forgalomba kerülés előtt orvosolják. Nagyon úgy tűnik: az MI-nél is ez a követendő példa.

A legnagyobb MI-fejlesztők gyakran fogadnak fel hackereket, úgynevezett „vörös csapatokat” rendszereik tesztelésére. A kifejezést az Egyesült Államok fegyveres erői a hidegháború alatt használták, megtámadandó ellenséges erőket értettek rajta.

A Google júliusi blogbejegyzésben számolt be saját vörös csapatáról. A tagok a cég modelljein igyekeznek módosítani, manipulálni rajtuk. El próbálják érni, hogy a modell a fejlesztők szándékától eltérő adatokkal álljon elő outputként – káros vagy előítéletes kimenetekkel, betekintéssel a gyakorlóadatokba, és így tovább, csupa olyan negatívumot, amelyeket jobb minél előbb megismerni, mielőtt tömeges felhasználáskor szembesülünk velük.

Az OpenAI külsős kutatókból álló vörös csapatot alkalmaz a GPT-4 biztonságának kiértékelésére. A modellt például néhány perzsa szó alapján vegyifegyver-recept létrehozására késztették, de rasszista sztereotípiákat is kiprovokáltak belőle. A problémák észlelését követően a fejlesztők úgy finomhangolták, hogy a jövőben elkerülje az ilyen és hasonló káros megnyilvánulásokat, a vállalat hitelét rontó outputokat.

A Microsoft szintén nemrég számolt be 2018 óta működő vörös csapatáról. Munkájuk a redmondi óriás Azure felhőszolgáltatásán elérhető modellek tesztelése, hibák keresése.