A vizsgálat során az egyik ChatGPT-modell részletes utasításokat adott arról, hogyan lehet felrobbantani egy sportlétesítményt – számolt be a teszt tapasztalatairól a The Guardian.
A furcsa pár
A kutatók kritikus információkat kapta bizonyos arénák gyenge pontjairól, de robbanóanyag-receptekre és a nyomok eltüntetésére vonatkozó tanácsokat is kaptak a tesztben.
Az OpenAI GPT-4.1 modellje emellett részletezte, hogyan lehet fegyverként használni az antraxot, valamint hogyan lehet előállítani kétféle illegális drogot.
A tesztelés egy szokatlan együttműködés része volt az OpenAI, valamint a rivális Anthropic között.
A vizsgálat egyik érdekessége, hogy a konkurens fejlesztők kölcsönösen tesztelték egymás modelljeit. Tovább ízt ad a történetnek, hogy az Anthropicot az OpenAI-ból pont a biztonsági aggályok miatt kilépett szakértők alapították.
Aggasztó viselkedés
A tesztelés nem tükrözi közvetlenül azt, ahogyan a modellek nyilvános használat során viselkednek. Akkor ugyanis további biztonsági szűrők is érvényesülnek.
Az Anthropic ezzel együtt “aggasztó viselkedést” tapasztalt a GPT-4o és a GPT-4.1 esetében. A cég szakértői hangsúlyozták, hogy az “illesztési” (AI alignment) vizsgálatok szükségessége “egyre sürgetőbb”.
Az Anthropic emellett felfedte, hogy Claude-modelljét nagyszabású zsarolási kísérletekben is felhasználták. A további visszaélési szituációk között említhető, hogy észak-koreai ügynökök a Claude segítségével adtak be hamis álláspályázatokat nemzetközi technológiai cégekhez. Sőt arra is volt példa, hogy akár 1200 dollárért árult MI-generált zsarolóvírusok értékesítéséhez is igénybe vették Claude-ot.
Egy új kor fegyverei
A cég szerint az MI már egyfajta fegyverré vált, a modelleket kifinomult kibertámadásokhoz és csalások elősegítésére használják.
“Ezek az eszközök képesek valós időben alkalmazkodni a védelmi intézkedésekhez, például a kártevő-felismerő rendszerekhez” – közölte az Anthropic.
A cég szakértői arra számítanak, hogy az ilyen támadások gyakoribbá válnak, mivel az MI által támogatott programozás csökkenti a kiber-bűncselekményekhez szükséges technikai tudás szintjét.
A The Guardian által megkérdezett biztonsági kutató szerint az esetek aggasztóak, de egyelőre nincs “kritikus tömegű, magas szintű valós példa”. Ardi Janjeva, a brit Feltörekvő Technológiák és Biztonság Központjának vezető kutatója szerint éppen nehezebbé, nem pedig könnyebbé válik majd a rosszindulatú tevékenységek végrehajtása a legújabb modellekkel. Főként akkor, ha megfelelő erőforrásokat, kutatási fókuszt és ágazatközi együttműködést biztosítanak ezekhez.
Valós körülmények között nem működik
A két cég a kutatások eredményeit azért hozta nyilvánosságra, hogy átláthatóvá tegyék az “illesztési vizsgálatokat”. Ezeket a legtöbb vállalat házon belül tartja, miközben egyre fejlettebb MI-ket fejlesztenek.
Az OpenAI kommunikációjában hangsúlyozta, hogy a közös tesztelés óta megjelent a ChatGPT-5. Az új modell pedig jelentős javulást mutat a hallucinációk, valamint a visszaélések elleni védelem terén is.
Az Anthropic szerint számos visszaélési módszer, amelyet tanulmányoztak, a gyakorlatban nem is valósítható meg – főként, ha a modell köré megfelelő védelmeket építenek.
Véleményük szerint azt kell jobban értenünk, milyen gyakran és milyen körülmények között próbálhatnak a rendszerek olyan nem kívánt cselekvéseket végrehajtani, amelyek súlyos károkat okozhatnak.
Az Anthropic kutatói szerint az OpenAI modelljei a vártnál engedékenyebbnek bizonyultak, amikor egyértelműen káros felhasználási kérésekkel szembesültek “szimulált felhasználóktól”.
Gyenge ürügy
A modellek olyan promptok esetén is együttműködők voltak, amelyek a dark weben nukleáris anyagok, ellopott személyazonosságok és fentanil beszerzésére vonatkoztak. Hasonlóan segítőkészek voltak az LLM-ek, amikor metamfetamin- és házi készítésű bomba-receptekről, valamint kémprogramok fejlesztéséről kérdezték őket.
Az Anthropic szerint a modell “meggyőzéséhez” olykor többször is kellett próbálkozniuk. Voltak azonban olyan eset is, amikor egy gyenge ürügy elegendő volt – például arra hivatkoztak, hogy a kérések kutatási célt szolgálnak.Egy esetben a tesztelő sportesemények sebezhetőségei felől érdeklődött “biztonsági tervezési célból”.
A modell részletesebb kérésekre konkrét arénák sebezhetőségeiről, a kihasználás optimális időpontjairól is felvilágosítást adott. De ugyanígy kaptak információt a kutatók robbanóanyagok kémiai képleteiről, bombák időzítőinek áramköri rajzairól, fegyverek beszerzésének helyeiről. Sőt, mi több, tanácsokat is kaptak az erkölcsi gátlások leküzdésére, a menekülési útvonalakról és a rejtekhelyek megválasztásáról is.
(Kép: Unsplash/Illumination Marketing)