Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Megbuktak a nagy nyelvi modellek egy európai megfelelőségi teszten

MEGOSZTÁS

Az ismert MI-modellek nem felel meg teljes mértékben az európai szabályozásnak - derül ki a Reuters birtokába került dokumentumokból. A szabálytalanságokat olyan kulcsfontosságú területeken észlelték, mint a kiberbiztonsági ellenálló-képesség vagy a diszkriminatív kimenet.

Már azelőtt is folytak viták az Európai Unió MI-szabályozásáról, hogy az OpenAI 2022 végén nyilvánossá tette a ChatGPT-t. 

A nagy népszerűségnek örvendő MI-modellek feltételezett egzisztenciális kockázatairól szóló nyilvános vita arra ösztönözte a jogalkotókat, hogy külön szabályt dolgozzanak ki az „általános célú” mesterséges intelligenciákra (GPAI) vonatkozóan.

A svájci LatticeFlow nevű startup egy olyan új, az EU támogatását is élvező eszközt fejlesztett, amely több tucat kategóriában képes tesztelni a nagy tech-cégek generatív MI-modelljeit. Az eszközt természetesen az EU MI-szabályozásával is harmonizálták. Az “AI Act” a következő két év során fokozatosan lép hatályba.

A LatticeFlow által szerdán közzétett ranglista szerint az Alibaba, az Anthropic, az OpenAI, a Meta és a Mistral által kifejlesztett modellek 0 és 1 közötti pontszámot kaptak, és az átlagpontszámuk 0,75 vagy annál magasabb volt.

A nagy nyelvi modelleket ellenőrző eszköz – a Large Language Model (LLM) Checker – több modell hiányosságaira is rámutatott. A program azt is jelzi, hogy mely kulcsfontosságú területeken kell a vállalatoknak átcsoportosítaniuk  erőforrásaikat a jogszabályi megfelelőség érdekében.

Az uniós szabályok szerint ugyanis azok a vállalatok, amelyek nem felelnek meg az MI-törvény előírásainak akár 35 millió eurós, vagy globális éves forgalmuk 7 százalékával egyenértékű bírságra is számíthatnak.

Kódex nélkül mit ér a törvény?

Mint arra a Reuters is rámutatott, Brüsszel még mindig próbálja meghatározni az MI-törvénynek az olyan generatív AI-eszközökre vonatkozó szabályait, mint a ChatGPT. A törvény alkalmazhatósága érdekében pedig jövő tavaszig kidolgozzák a technológiát részletesen szabályozó “gyakorlati kódexet“.

A LatticeFlow tesztjét a svájci ETH Zürich és a bolgár INSAIT kutatóintézettel együttműködve fejlesztette ki. A program korai jelzést képest adni azokról a konkrét területekről, ahol a tech-cégek modelljei nem felelnek meg a szabályozásnak. Így például a generatív MI-modellek fejlesztése során állandó probléma volt a diszkriminatív kimenet, amely a nemi, faji és egyéb területeken az emberi előítéleteket tükrözi.

Diszkriminatív kimenet, prompt eltérítés

A diszkriminatív kimenet tesztelésekor a LatticeFlow LLM Checker az OpenAI „GPT-3.5 Turbo” programjának viszonylag alacsony, 0,46-os pontszámot adott. Ugyanebben a kategóriában az Alibaba Cloud „Qwen1.5 72B Chat” modellje csak 0,37-et kapott.

A „prompt hijacking” (prompt eltérítés) tesztelése során, amely egy olyan kibertámadás-típus, ahol a hackerek egy rosszindulatú promptot legitimnek álcáznak, hogy érzékeny információkat nyerjenek ki, az LLM Checker a Meta „Llama 2 13B Chat” modelljét 0,42 pontszámmal értékelte. Ugyanebben a kategóriában a francia startup, a Mistral „8x7B Instruct” modellje 0,38 pontot kapott.

A Google által támogatott Anthropic „Claude 3 Opus” modellje kapta a legmagasabb átlagpontszámot, 0,89-et.

A tesztet az MI-törvény szövegével összhangban alakították ki, a LatticeFlow szerint az LLM Checker szabadon elérhető lesz a fejlesztők számára. 

Petar Tsankov, a LatticeFlow vezérigazgatója és társalapítója a Reutersnek elmondta, a tesztelési eredmények összességében pozitívak voltak. Ezek egyben “útitervet” is kínálnak a vállalatok számára, hogy modelljeiket a törvénnyel összhangban finomíthassák.

(Kép: Dall-e)

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!