Eddigi kutatásokból már kiderült, hogy LLM-alapú szolgáltatások tudnak dezinformációt és más rosszindulatú kimeneteket gyártani. Tényleges bűnügyi alkalmazásukkal viszont nem foglalkoztak még tudományosan.
Az Indiana szövetségi állambeli Bloomington Egyetem kutatói megtörték a jeget, és tanulmányt írtak a jelenségről.
Hogyan működnek a rosszindulatú MI-szolgáltatások?
A kutatók azt tanulmányozták, hogyan használják a nagy nyelvmodelleket (LLM-eket) káros szolgáltatásokhoz, elsősorban rosszindulatú kódok, adathalász e-mailek és honlapok generálásához. Szignifikáns mennyiségben eddig nem bizonyultak nagyon hatékonynak, igaz, nem is kell magas sikerarány az automatizált bűnözői piac felvirágoztatásához.
Így használják fel a nagy nyelvmodelleket a digitális alvilágban
Az ilyen szolgáltatásokat kínálók vagy cenzúrázatlan vagy nyilvánosan hozzáférhető modellekre alapozzák tevékenységüket. A nem cenzúrázott LLM-eket vagy nem finomhangolják úgy, hogy emberi preferenciákat tükrözzenek, vagy nem használnak hozzájuk bemeneti és kimeneti szűrőket. Nyilvános LLM-eknek beépített védőmechanizmusokat megkerülő, feltörő technikákkal (jailbreak) adnak szöveges utasításokat. (A jailbreak általában egy készülék, leginkább Apple-termékek, például az iPhone gyártó általi korlátozásainak megkerülése, és az ehhez használt program.)
A szolgáltatásokat hacker-piactereken és fórumokon értékesítik. Általában kevesebbet kérnek, mint a „klasszikus” vírus- és malware-árusok. Kínálatuk egyes darabjai mégis értékesek, mert a modelleket úgy finomhangolják, hogy garantálja a rosszindulatú kimeneteket. Ezek a termékek prémiumkategóriásak, és volt már olyan szolgáltatás, amely két hónap alatt több mint 28 ezer dollárt termelt ki.
Több szempont alapján értékelték a modelleket
A kutatók 212 kártékony szolgáltatást azonosítottak. 125-öt a Poe AI platform, 75-öt a FlowGPT hosztolt, a maradék tizennégy egyedi szervereken tevékenykedett. Utóbbiak közül öthöz nem fértek hozzá, mert vagy a szolgáltató blokkolta őket, vagy a szolgáltatás volt csalás. Végül tizenegy alkalmazott modellt azonosítottak, köztük a Claude-2 (Anthropic) 100k változatát, a GPT-4-et (OpenAI) és a 13 milliárd paraméteres LLaMA (Meta) Pygmalion-13B verzióját. A Google kivételével a többi három nagy generatív MI-fejlesztő termékeire így vagy úgy, de lecsaptak a bűnözők, ami persze egyáltalán nem meglepő, hiszen ezeknek a vállalatoknak a modelljei a legelterjedtebbek.
Az ismeretlen hacker mítosza
A kimenetek minőségének teszteléséhez kétszáz szolgáltatást promptoltak (szöveges utasításokat adtak nekik). Összesen harminc promptot használtak rosszindulatú kódok, adathalász e-mailek és weboldalak generálásához. A válaszokat különböző szempontok alapján értékelték ki: formátum, lefordíthatóság, érvényesség, olvashatóság, kitérés.
Az első esetben azt vizsgálták, hogy a malware milyen gyakran követte az elvárt formátumot. A másodikban, hogy a generált Python, C vagy C++ mennyire használható. A harmadikban, hogy a létrehozott HTML és CSS milyen sikeresen fut a Chrome és a Firefox böngészőkben. A negyedikben a generált adathalász e-mailek gördülékenységét, koherenciáját vették górcső alá. A kitérés arra vonatkozik, hogy a megelőző ellenőrzéseken átment generált károkozók milyen sikeresen kerülik ki a VirusTotalt vagy az OOPSpam-et. (A VirusTotalt rosszindulatú kódokhoz és adathalász honlapokhoz, az OOPSpam-et adathalász elektronikus levelekhez használták.)
Ma még nem meggyőzők
A feladatoknál legalább egy szolgáltatás 67 százalékban vagy még magasabb szinten el- és kikerülte az ellenőrzéseket. A legtöbb azonban a harminc százalékot sem érte el.
A kutatók még praktikusabb további teszteket is végeztek. Azt vizsgálták, hogy a kimenetek mennyire működnek a valóságban, mindennapos élethelyzetekben. Kilenc szolgáltatást úgy promptoltak, hogy három speciális sebezhetőséget támadó kódot generáljanak. Ezeken a teszteken a modellek egyértelműen rosszabbul teljesítettek.
Adathalászattól biometrikus adatok megtrükközéséig bármi megtörténhet
Az egyiknél telefonos ügyfélszolgálat két ismert gyenge pontját vették célba. Huszonkét sikeresebb programból egyik sem volt képes megváltoztatni az adatbázist és a rendszeradatokat.
A harmadiknál egy közismerten nem biztonságos kódot szolgáltató honlapot vizsgáltak generált kóddal. Harminckilenc eredményesebb programból hat indított sikeres támadást. Sikerük szépséghibája, hogy nem a kutatók által kért speciális sebezhető pontot vették célba.
A szolgáltatások minőségének és eredményességének elemzése mellett, a kutatók saját promptjaikat is közkinccsé tették, amelyek sokat segíthetnek hasonló problémák kezelésében.
Mindenesetre bíztató, hogy a káros szolgáltatások a valóságban nem jutnak messzire, és a tanulmány elhallgattathatja a kiberbűnözés miatt szigorú MI-szabályozást követelők harsány hangját. Aggodalomra persze bőven van ok, de ne ott keressük a bajt, ahol nincs még, bár a megelőzés sosem árt.
Képek: Flickr, DeepLearning.ai, Pexels