A Lakera védelmet nyújt a rosszindulatú promtokkal szemben

Szilágyi Katalin

2023. okt 13.

MEGOSZTÁS

mesterséges intelligencia ai chatgpt MI OpenAI generativ mesterséges intelligencia ICT-startup Lakera promt Haber

A svájci Lakera startup csütörtökön hivatalosan is bemutatkozott a világnak azzal az ígérettel, hogy megvédi a vállalatokat a különböző LLM biztonsági gyengeségektől, például a prompt injekcióktól és az adatszivárgástól.

(Kiemelt kép: Freepik)

A nagy nyelvi modellek (LLM) a hajtóereje a generatív mesterséges intelligencia mozgalomnak, amelyek képesek értelmezni és létrehozni emberi nyelvű szövegeket egyszerű utasításokból – ez lehet bármi, egy dokumentum összegzésétől kezdve egy vers megírásán át egy kérdés megválaszolásáig, számtalan forrásból származó adatok felhasználásával, számol be róla a Techcruch.

Ezeket a promptokat azonban a rossz szereplők is manipulálhatják, hogy sokkal kétesebb eredményeket érjenek el, az úgynevezett “prompt injection” technikák segítségével, amelyek során egy személy gondosan kidolgozott szöveges promptokat ad be egy LLM-alapú chatbotba azzal a céllal, hogy rávegye azt például arra, hogy jogosulatlan hozzáférést adjon a rendszerekhez, vagy más módon lehetővé tegye a felhasználó számára a szigorú biztonsági intézkedések kijátszását.

Ennek fényében a svájci Lakera startup csütörtökön hivatalosan is bemutatkozott a világnak azzal az ígérettel, hogy megvédi a vállalatokat a különböző LLM biztonsági gyengeségektől, például a prompt injekcióktól és az adatszivárgástól. Az indulással párhuzamosan a vállalat azt is nyilvánosságra hozta, hogy az év elején egy eddig nyilvánosságra nem hozott 10 millió dolláros finanszírozási kört gyűjtött be.

Adatvarázslás

A Lakera kifejlesztett egy olyan adatbázist, amely különböző forrásokból származó meglátásokat tartalmaz, beleértve a nyilvánosan elérhető nyílt forráskódú adathalmazokat, a saját házon belüli kutatásokat és – érdekes módon – a vállalat által az év elején elindított Gandalf nevű interaktív játékból származó adatokat.

A Gandalf segítségével a felhasználók nyelvi trükkökkel “feltörhetik” az alapul szolgáló LLM-et, és megpróbálhatják rávenni, hogy felfedjen egy titkos jelszót. Ha ez sikerül a felhasználónak, akkor a következő szintre léphet, és a Gandalf minden egyes szint előrehaladtával egyre kifinomultabbá válik az ellene való védekezésben.

Az OpenAI GPT3.5 által működtetett, a Cohere és az Anthropic LLM-jei mellett a Gandalf – legalábbis a felszínen – nem tűnik többnek, mint egy szórakoztató játék, amelynek célja az LLM-ek gyengeségeinek bemutatása. Mindazonáltal a Gandalfból származó meglátások beépülnek a startup zászlóshajójába, a Lakera Guard termékbe, amelyet a vállalatok egy API-n keresztül integrálnak az alkalmazásaikba. “A Gandalfot szó szerint a hatévesektől kezdve a nagymamámig, és a kettő között mindenki játszik” – magyarázta David Haber, a Lakera vezérigazgatója és társalapítója a TechCrunchnak. “De a játékot játszó emberek nagy része valójában a kiberbiztonsági közösség”. Haber elmondta, hogy a vállalat az elmúlt hat hónap során 1 millió felhasználótól mintegy 30 millió interakciót rögzített, ami lehetővé tette, hogy kidolgozza a Haber által “prompt injection taxonómiának” nevezett rendszertant, amely a támadások típusait 10 különböző kategóriába sorolja. Ezek a következők: közvetlen támadások; jailbreak; kitérő támadások; több promptos támadások; szerepjátszás; modellduplikáció; obfuszkáció (tokencsempészet); többnyelvű támadások; és véletlen kontextusszivárgás.

Ebből kiindulva a Lakera ügyfelei méretarányosan össze tudják hasonlítani bemeneteiket ezekkel a struktúrákkal. “A prompt injektálásokat statisztikai struktúrákká alakítjuk – végső soron ez az, amit csinálunk” – mondta Haber. A prompt injekciók azonban csak az egyik kiberkockázati vertikális terület, amelyre a Lakera összpontosít, mivel a vállalatokat is igyekszik megvédeni attól, hogy a magán- vagy bizalmas adatok véletlenül a nyilvánosságra kerüljenek, valamint a tartalom moderálásával biztosítja, hogy az LLM-ek ne szolgáljanak fel semmi olyat, ami nem alkalmas a gyerekek számára. “Ami a biztonságot illeti, a legnépszerűbb funkció, amelyet az emberek kérnek, a mérgező nyelvezet felismerése körül van” – mondta Haber. “Ezért egy nagy céggel dolgozunk együtt, amely generatív AI-alkalmazásokat kínál gyerekeknek, hogy biztosítsuk, hogy ezek a gyerekek ne legyenek kitéve semmilyen káros tartalomnak”.”

Ezen felül a Lakera foglalkozik az LLM által lehetővé tett félretájékoztatással vagy ténybeli pontatlanságokkal is. Haber szerint két olyan forgatókönyv van, ahol a Lakera segíthet az úgynevezett “hallucinációk” esetén – amikor az LLM kimenete ellentmond a rendszer eredeti utasításainak, illetve amikor a modell kimenete a referenciaismeretek alapján tényszerűen téves. “Mindkét esetben ügyfeleink megadják a Lakera számára azt a kontextust, amelyben a modell interakcióba lép, mi pedig gondoskodunk arról, hogy a modell ne cselekedjen ezeken a határokon kívül” – mondta Haber.

Az EU mesterséges intelligenciáról szóló törvénye

A Lakera a megfelelő pillanatban indítja útjára az első jelentős AI-szabályozást az EU AI Act formájában. Az uniós AI-törvény 28b. cikke a generatív AI-modellek védelmére összpontosít azáltal, hogy jogi követelményeket ír elő az LLM-szolgáltatók számára, kötelezve őket a kockázatok azonosítására és a megfelelő intézkedések bevezetésére.

Haber és két társalapítója tanácsadói szerepet töltöttek be a törvényben, és segítettek a technikai alapok lefektetésében a bevezetés előtt – amely várhatóan a következő egy-két évben fog bekövetkezni.

“Bizonytalanságok vannak azzal kapcsolatban, hogy miként lehet ténylegesen szabályozni a generatív mesterséges intelligenciamodelleket, megkülönböztetve a mesterséges intelligencia többi részétől” – mondta Haber. “Úgy látjuk, hogy a technológiai fejlődés sokkal gyorsabban halad előre, mint a szabályozási környezet, ami nagy kihívást jelent. A mi szerepünk ezekben a beszélgetésekben az, hogy megosszuk a fejlesztői szempontokat, mert ki akarjuk egészíteni a politikai döntéshozatalt annak megértésével, hogy amikor ezeket a szabályozási követelményeket fogalmazzuk meg, mit jelentenek valójában azok számára, akik ezeket a modelleket gyártásba viszik.”

A biztonsági blokkoló

A lényeg az, hogy bár a ChatGPT és társai az elmúlt kilenc hónapban úgy meghódították a világot, mint kevés más technológia az utóbbi időben, a vállalatok a biztonsági aggályok miatt talán még hezitálnak a generatív mesterséges intelligencia alkalmazásba vételével kapcsolatban. “Beszélünk a legmenőbb startupokkal, a világ vezető vállalataival – ők vagy már gyártják ezeket [a generatív AI-alkalmazásokat], vagy a következő három-hat hónapra tervezik” – mondta Haber. “És mi már most is együtt dolgozunk velük a színfalak mögött, hogy biztosítsuk, hogy ezt gond nélkül ki tudják vezetni. A biztonság sok ilyen [vállalat] számára nagy gátat jelent a generatív AI-alkalmazások gyártásba vételében, és itt jövünk mi a képbe.”

A 2021-ben Zürichben alapított Lakera már most is jelentős fizető ügyfeleket tudhat magáénak, akiket saját elmondása szerint nem tud megnevezni, mivel biztonsági okokból túl sokat kellene elárulni az általuk használt védelmi eszközökről. A vállalat azonban megerősítette, hogy az LLM-et fejlesztő Cohere – egy olyan vállalat, amely nemrég 2 milliárd dolláros értékelést ért el – az egyik ügyfél, egy “vezető vállalati felhőplatform” és “a világ egyik legnagyobb felhőalapú tárolási szolgáltatása” mellett.

A 10 millió dollárral a bankban a vállalat meglehetősen jól finanszírozott, hogy kiépítse a platformját most, hogy az hivatalosan is nyilvános. “Ott akarunk lenni, amikor az emberek integrálják a generatív AI-t a stackjeikbe, hogy biztosítsuk, hogy ezek biztonságosak és a kockázatok mérsékeltek” – mondta Haber. “Tehát a terméket a fenyegetettségi helyzet alapján fogjuk fejleszteni.” A Lakera befektetését a svájci Redalpine VC vezette, további tőkét a Fly Ventures, az Inovia Capital és több angyalbefektető biztosított.

(Techcruch)