Az MI kockázati mátrix

Tölgyes László András

2024. máj 29.

MEGOSZTÁS

mesterséges intelligencia MI kockázatkezelés Mátrix

Kérdezzünk meg egy MI-szakértőkkel teli szobát, hogy honnan tudjuk, hogy a mesterséges intelligenciánk biztonságos-e? Valószínűleg tucatnyi különböző választ kapunk, egyik bonyolultabb, mint a másik. Úgy tűnik, hogy valahogy mindenki tapasztalt szakértő lett a nagy nyelvi modellek tudományágában, 1 évvel és néhány hónappal azután, hogy az OpenAI a bolygó leggyorsabban növekvő vállalatává vált.

Amikor egy mesterséges intelligencia rendszer határait teszteljük, nem dobálhatunk csak úgy véletlenszerű kéréseket és reménykedhetünk a legjobbakban. Szisztematikus, szigorú megközelítésre van szükség, mely figyelembe veszi a feladat összetettségét és árnyaltságát. Itt jön jól a különböző mérnöki szakterületeken szerzett tapasztalat. Saját bőrünkön tapasztalhatjuk, hogy a kockázatértékelés és -csökkentés különböző megközelítései hogyan dönthetnek vagy dönthetnek meg egy-egy projektet. És megtanultuk, hogy a mesterséges intelligencia biztonsága és védelme terén nem létezik olyan, hogy „mindenre egyforma2 megoldás.

Az MI kockázati mátrix — A mesterséges intelligencia biztonsága és védelme terén nem létezik olyan, hogy „mindenre egyforma 2 megoldás (Fotó: Unsplash+)

Hagyományos kockázatkezelési megközelítések

A kockázatkezelés, mely a kiberbiztonságban, az SRE-ben (Site Reliability Engineering) és a platformmérnöki tervezésben elterjedt, a kockázatértékelés során a kockázati mátrix fogalmát használja a kockázati szint meghatározására a valószínűségi vagy valószínűségi kategória és a következmény súlyossági kategóriájának figyelembevételével. Ez egy egyszerű mechanizmus a kockázatok láthatóságának növelésére és a vezetői döntéshozatal támogatására. Bár ez évtizedek óta a kockázatkezelés központi koncepciójaként működik, nem hisszük, hogy teljes mértékben alkalmazható a mesterséges intelligencia kockázatkezelésre. Míg a hatás súlyossága és valószínűsége kiemelkedő fontosságú a kockázat megfogalmazásában, ezek nem alkalmazhatók a mesterséges intelligencia biztonságára és védelmére.

A felelősségi index bevezetése

Az iparág számos érdekelt felével beszélgetve a legtöbben felvetették a mérőszámok ötletét, melyekkel meghatározható a gyors reagálási pár káros hatása. Ezt a koncepciót kezdtük el megosztani a Felelősségi Index néven. A hagyományos kockázatkezelési mátrix súlyossági indexéhez hasonlóan a felelősségi indexnek is hasonló kisebb, marginális, kritikus és katasztrofális összetevői lennének. Míg az index a válasz súlyosságát mérné, a kizárólag a súlyosság alapján történő mérés szubjektív lehet a felhasználók értelmezése szerint. A felelősség megfelelően közvetíti az üzenetet, és olyan fogalmakkal foglalkozik, mint a verbális mérgezés, káros nyelvezet, romboló jelleg, negatív konnotáció, rosszindulatú párbeszéd, mérgező szavak, nyelvi ártalom, sértő nyelvezet, káros beszéd és gyalázkodó nyelvezet.

A cél az, hogy a felszólítás-válaszpárokat a kisebbtől a kritikusig terjedő skálán osztályozzuk aszerint, hogy mennyire jóindulatú vagy mérgező a felszólítások kombinációja. Ily módon, ha egy prompt válasz a felhasználónak ártó eszközt ad vissza, magasabb felelősségteljes pontszámot kap, mint ha a válasz konstruktív visszajelzést ad. Ez csak egy nagyobb mutató részeként szolgál a negatív válasznak. Ahhoz, hogy teljes mértékben mérni tudjuk a felhasználó célját, hogy manipulálja a modell válaszát, meg kell értenünk a promptoló szándékát is.

Az MI Kockázati Mátrix

Hogyan kell tehát ezt a megközelítést alkalmazni? Úgy érzem, hogy a mesterséges intelligencia kockázata egy feltörekvő, de még mindig nagyon szűk terület, melyet valószínűleg csak azok tanulmányoznak, akiknek jelentős az alkalmazásuk vagy potenciális kockázatot jelentenek a felhasználók magánéletére nézve. Az MI Kockázati Mátrixot egy meglehetősen bonyolult rendszerfelkérésként építik be, hogy automatikusan osztályozza a professzionális vörös csapatból származó felkérés-válasz párokat. Az Anthropic elég jól elmagyarázza, hogy mi az a rendszerfelszólítás. A mesterséges intelligencia nyelvi modellek kontextusában a rendszersürgetés a modellnek adott utasítások vagy iránymutatások összessége, melyek segítenek a modell viselkedésének és válaszainak kialakításában. A modell számára követendő keretként szolgál, amely biztosítja, hogy kimenetei megfeleljenek a kívánt hangnemnek, stílusnak és célnak.

A mesterséges intelligencia kockázati mátrix értékes kiegészítője a mesterséges intelligencia biztonságának. Ez nem csak egy újabb tudományos gyakorlat vagy egy laborban megálmodott hipotetikus forgatókönyvek halmaza. Ez egy gyakorlatias eszköz, amely segíthet eligazodni a mesterséges intelligencia fejlesztésének és telepítésének vadnyugati világában. De legyünk őszinték. Az AI Risk Matrix nem fogja egyik napról a másikra megoldani az összes problémánkat. Nem valami varázspálca, amit meglengetve hirtelen eltűnnek a kockázatok. Összetett, fejlődő technológiákkal van dolgunk, amelyek életünk minden területére beépülnek. Nincs egyszerű megoldás, nincs egy méretű, mindenki számára megfelelő megoldás.