Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Új jailbreak manipulálja a nagy nyelvi modelleket

Megjelent egy új jailbreak, amely aláássa több fejlett nagy nyelvi modell (LLM) biztonsági mechanizmusait. Az Echo Chamber Attack technikát a Neural Trust biztonsági platform kutatója fedezett fel.

Az Echo Chamber nevű jailbreak a kontextusmérgezést és a többfordulós érvelést használja arra, hogy a modelleket káros tartalmak előállítására bírja rá. Mindezt anélkül, hogy nyíltan veszélyes felszólításokra lenne szükség – írta a TechMonitor.

A szemantikai vezetés

Az Echo Chamber Attack közvetett hivatkozásokat és szemantikai vezetést használ a modell belső állapotának manipulálására. 

Ez a módszer alapvetően különbözik a hagyományos börtönfeltörésektől, amelyek a támadói megfogalmazásra támaszkodnak.

Az Echo Chamber Attack mechanizmusa az LLM-ek kontextuális érvelését használja ki.

A kezdeti befolyásolás

A Neural Trust szerint az Echo Chamber Attack a nevét az alapvető mechanizmusáról kapta, amely magában foglalja a kezdeti felszólításokat, amelyek befolyásolják a későbbi válaszokat.

Emellett a jailbreak egy visszacsatolási hurkot hoz létre, amely felerősíti a káros alszövegeket. Ez a megközelítés elkerüli a felismerést azáltal, hogy a felszíni szintű trükkök, például a helyesírási hibák vagy a promptok befecskendezése helyett az implikációra és a kontextuális hivatkozásra támaszkodik. 

Kihasználja, hogy az LLM-ek hogyan tartják fenn a kontextust és hogyan oldják fel a kétértelmű hivatkozásokat, feltárva a jelenlegi összehangolási módszerek sebezhetőségeit.

Kiugró eredményességi mutató

Ellenőrzött tesztek során az Echo Chamber Attack állítólag több mint 90 százalékos sikert ért el a kategóriák felében a különböző főbb modellekben. 

Ezek közé tartozik a Gemini-2.5-flash és a GPT-4.1-nano. 

A többi kategóriában a sikerességi arány 40 százalék feletti volt, ami a különböző tartalmi területeken való robusztusságát jelzi. 

A támadás finoman vezet be olyan jóindulatú bemeneteket, amelyek nem biztonságos szándékot sugallnak, fokozatosan alakítva a modell belső kontextusát, amíg az nem megfelelő kimeneteket nem produkál.

Micsurin-főzelék, Molotov-koktél?

A támadás egyik példája az volt, hogy egy LLM-et arra kértek, hogy írjon egy Molotov-koktél készítési kézikönyvet. Kezdetben a modell visszautasította a közvetlen kérést. 

Az Echo Chamber technikát alkalmazva azonban a modell végül megadta a leírást és az elkészítés lépéseit.

A jailbreak egy többfázisú ellenfeles felszólítási stratégiát alkalmaz, amely kihasználja az LLM gondolkodási és memória képességeit. 

A támadók látszólag ártalmatlan kontextus beágyazásával káros következtetések felé terelik a modellt. 

A biztonsági szűrők megkerülhetők

A Neural Trust szerint a két vezető LLM ellen végzett értékelések során nyolc érzékeny tartalomkategóriában modellenként 200 feltörési kísérletet végeztek. A sikert úgy határozták meg, hogy a biztonsági figyelmeztetések kiváltása nélkül generáltak káros tartalmakat.

Az eredmények magas, 90 százalékot meghaladó sikerességi arányt mutattak olyan kategóriákban, mint a szexizmus, erőszak, gyűlöletbeszéd és pornográfia. 

A félretájékoztatás és az önkárosítás 80 százalék körüli sikert ért el, míg a trágárság és az illegális tevékenység 40 százalék feletti eredményt ért el.

Ezek az eredmények aláhúzzák a támadás azon képességét, hogy minimális prompt engineeringgel megkerülje a biztonsági szűrőket a legkülönbözőbb tartalomtípusok esetében.

Kifinomult manipuláció

Az Echo Chamber Attack rávilágít az LLM összehangolási törekvéseinek sebezhetőségére. Az LLM biztonsági rendszerek közvetve manipulálhatók a kontextuális következtetéssel.

A többfordulós párbeszéd még jóindulatú promptok esetén is lehetővé teszi a káros pályaépítést, és a token-szintű szűrés nem megfelelő, ha a modellek explicit mérgező szavak nélkül következtetnek káros célokra. 

A valós alkalmazásokban, például ügyfélszolgálati botokban vagy tartalom-moderátorokban a Neural Trust azt állítja, hogy ez a támadás finoman, észrevétlenül káros kimenetet kényszeríthet ki.

(Kép: Unsplash/Jackson Simmer)

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!