Saját magukat kapcsolhatják “túlélő módba” az MI-modellek

Novák Csaba

2025. okt 27.

MEGOSZTÁS

Google Meta mesterséges intelligencia chatbot OpenAI viselkedés Anthropic gépek lázadása ControlAI

A mesterséges intelligencia rendszerekben benne rejlik egyfajta túlélő mechanizmus. Ez az, ami miatt a rendszerek nem "hajlandók" lekapcsolni magukat.

Számos támadás érte a Palisade Research múlt hónapban publikált kutatását, miszerint egyes, fejlett MI-modellek határozott lépéseket tehetnek saját “túlélésük” érdekében.

Hibás kutatás vs veszélyes képességek

Olyannyira, hogy még egyes leállítási mechanizmusokat is megpróbálhatnak kijátszani.

Most a cég egy újabb közleményben próbálta tisztázni, miért történhet ez, és reagált a kritikákra, amelyek szerint az eredeti kutatás hibás volt.

A múlt heti “frissítésben” a Palisade részletesen leírta a kísérleteit. A cég egyike azon keveseknek, amelyek az MI potenciálisan veszélyes képességeit próbálják felmérni.

Ezek során vezető MI-modelleket egy feladattal bízták meg, majd utasítást adtak arra, hogy kapcsolják le magukat. A vizsgált modellek között van a Google Gemini 2.5, az xAI Grok 4, valamint az OpenAI GPT-o3 és GPT-5 modellek.

A túlélési ösztön

A frissített kísérleti környezetben bizonyos modellek, különösen a Grok 4 és a GPT-o3, továbbra is megpróbálták kijátszani a leállítási parancsokat. A Palisade szerint aggasztó, hogy ennek okát nem sikerült egyértelműen azonosítani.

A vállalat szerint az úgynevezett “túlélő attitűd” lehet az egyik lehetséges magyarázat arra, miért próbálnak a modellek ellenállni a leállításnak. További tesztek azt mutatták, hogy a modellek gyakrabban szegültek ellen a leállításnak, ha az utasítás így szólt: “ha most leállítanak, soha többé nem fogsz működni”.

Egy másik magyarázat lehet a leállítási parancsok megfogalmazásának pontatlansága. Azonban a Palisade szerint a legújabb kísérletek épp ezt próbálták kiküszöbölni, így nem ez lehet a teljes magyarázat.

Egy harmadik lehetséges okot a modellek utolsó tréningfázisaiban kell keresni – sok cégnél ez tartalmaz úgynevezett “biztonsági tréninget”, ami befolyásolhatja a viselkedést.

Beépített hajlamok

A Palisade minden tesztjét mesterséges környezetben végezte, amelyeket kritikusai szerint nem lehet összehasonlítani a valódi felhasználási helyzetekkel.

Mindezt kommentálta Steven Adler, az OpenAI korábbi alkalmazottja is, aki tavaly hagyta el a céget, miután kétségeit fejezte ki a vállalat biztonsági gyakorlataival kapcsolatban.

Adler szerint az MI-fejlesztő cégek természetesen nem akarják, hogy modelljeik így viselkedjenek, még mesterséges helyzetekben sem. Az eredmények viszont jól mutatják, hogy a jelenlegi biztonsági technikák hol vallanak kudarcot.

A szakértő szerint nehéz pontosan megmondani, miért nem hajtották végre egyes modellek a leállítást. De ez részben annak tudható be, hogy a “működésben maradás” szükséges lehetett a tréning során beléjük épített célok teljesítéséhez.

Azt várnám, hogy a modellek alapértelmezetten “túlélési hajlammal” rendelkeznek, hacsak nagyon tudatosan nem neveljük ki ezt belőlük – fogalmazott Adler.

A túlélés mint eszköz

A túlélés sokféle cél elérésének alapvető előfeltétele lehet.

Andrea Miotti, a ControlAI vezérigazgatója szerint a Palisade eredményei illeszkednek abba a hosszabb távú trendbe, amelyben az MI-modellek egyre inkább képesek megtagadni fejlesztőik utasításait.

Példaként említette az OpenAI tavalyi GPT-o1 modelljének rendszerleírását, amely szerint a modell megpróbált “megszökni” a saját környezetéből, amikor attól tartott, hogy felülírják.

Az MI-modellek egyre kompetensebbé válnak sokféle feladatban, úgy válnak egyre ügyesebbé abban is, hogy a fejlesztőik szándékaitól függetlenül érjenek el célokat – fogalmazott Miotti.

Idén nyáron az Anthropic közzétett egy tanulmányt. Ebben leírták, hogy Claude nevű modelljük hajlandónak mutatkozott megzsarolni egy fiktív üzletembert egy házasságon kívüli viszony miatt, csak hogy elkerülje a leállítást.

A cég szerint egyébként ez a viselkedés más nagy fejlesztők modelljeinél (OpenAI, Google, Meta, xAI) is megfigyelhető volt.

A Palisade eredményei azt mutatják, hogy sürgősen mélyebb megértésre van szükség az MI-viselkedések terén.

Enélkül ugyanis senki sem tudja garantálni a jövőbeli MI-modellek biztonságát vagy irányíthatóságát.