Számos támadás érte a Palisade Research múlt hónapban publikált kutatását, miszerint egyes, fejlett MI-modellek határozott lépéseket tehetnek saját “túlélésük” érdekében.
Hibás kutatás vs veszélyes képességek
Olyannyira, hogy még egyes leállítási mechanizmusokat is megpróbálhatnak kijátszani.
Most a cég egy újabb közleményben próbálta tisztázni, miért történhet ez, és reagált a kritikákra, amelyek szerint az eredeti kutatás hibás volt.
A múlt heti “frissítésben” a Palisade részletesen leírta a kísérleteit. A cég egyike azon keveseknek, amelyek az MI potenciálisan veszélyes képességeit próbálják felmérni.
Ezek során vezető MI-modelleket egy feladattal bízták meg, majd utasítást adtak arra, hogy kapcsolják le magukat. A vizsgált modellek között van a Google Gemini 2.5, az xAI Grok 4, valamint az OpenAI GPT-o3 és GPT-5 modellek.
A túlélési ösztön
A frissített kísérleti környezetben bizonyos modellek, különösen a Grok 4 és a GPT-o3, továbbra is megpróbálták kijátszani a leállítási parancsokat. A Palisade szerint aggasztó, hogy ennek okát nem sikerült egyértelműen azonosítani.
A vállalat szerint az úgynevezett “túlélő attitűd” lehet az egyik lehetséges magyarázat arra, miért próbálnak a modellek ellenállni a leállításnak. További tesztek azt mutatták, hogy a modellek gyakrabban szegültek ellen a leállításnak, ha az utasítás így szólt: “ha most leállítanak, soha többé nem fogsz működni”.
Egy másik magyarázat lehet a leállítási parancsok megfogalmazásának pontatlansága. Azonban a Palisade szerint a legújabb kísérletek épp ezt próbálták kiküszöbölni, így nem ez lehet a teljes magyarázat.
Egy harmadik lehetséges okot a modellek utolsó tréningfázisaiban kell keresni – sok cégnél ez tartalmaz úgynevezett “biztonsági tréninget”, ami befolyásolhatja a viselkedést.
Beépített hajlamok
A Palisade minden tesztjét mesterséges környezetben végezte, amelyeket kritikusai szerint nem lehet összehasonlítani a valódi felhasználási helyzetekkel.
Mindezt kommentálta Steven Adler, az OpenAI korábbi alkalmazottja is, aki tavaly hagyta el a céget, miután kétségeit fejezte ki a vállalat biztonsági gyakorlataival kapcsolatban.
Adler szerint az MI-fejlesztő cégek természetesen nem akarják, hogy modelljeik így viselkedjenek, még mesterséges helyzetekben sem. Az eredmények viszont jól mutatják, hogy a jelenlegi biztonsági technikák hol vallanak kudarcot.
A szakértő szerint nehéz pontosan megmondani, miért nem hajtották végre egyes modellek a leállítást. De ez részben annak tudható be, hogy a “működésben maradás” szükséges lehetett a tréning során beléjük épített célok teljesítéséhez.
Azt várnám, hogy a modellek alapértelmezetten “túlélési hajlammal” rendelkeznek, hacsak nagyon tudatosan nem neveljük ki ezt belőlük – fogalmazott Adler.
A túlélés mint eszköz
A túlélés sokféle cél elérésének alapvető előfeltétele lehet.
Andrea Miotti, a ControlAI vezérigazgatója szerint a Palisade eredményei illeszkednek abba a hosszabb távú trendbe, amelyben az MI-modellek egyre inkább képesek megtagadni fejlesztőik utasításait.
Példaként említette az OpenAI tavalyi GPT-o1 modelljének rendszerleírását, amely szerint a modell megpróbált “megszökni” a saját környezetéből, amikor attól tartott, hogy felülírják.
Az MI-modellek egyre kompetensebbé válnak sokféle feladatban, úgy válnak egyre ügyesebbé abban is, hogy a fejlesztőik szándékaitól függetlenül érjenek el célokat – fogalmazott Miotti.
Idén nyáron az Anthropic közzétett egy tanulmányt. Ebben leírták, hogy Claude nevű modelljük hajlandónak mutatkozott megzsarolni egy fiktív üzletembert egy házasságon kívüli viszony miatt, csak hogy elkerülje a leállítást.
A cég szerint egyébként ez a viselkedés más nagy fejlesztők modelljeinél (OpenAI, Google, Meta, xAI) is megfigyelhető volt.
A Palisade eredményei azt mutatják, hogy sürgősen mélyebb megértésre van szükség az MI-viselkedések terén.
Enélkül ugyanis senki sem tudja garantálni a jövőbeli MI-modellek biztonságát vagy irányíthatóságát.