Végre rangsorolható a nagy nyelvmodellek megbízhatósága

Kömlődi Ferenc

2024. febr 20.

MEGOSZTÁS

Biztonság Új technológiák Adatgazdaság Felhő Rövid hírek Iparági megoldások Technológia

megbízhatóság Hugging Face mesterséges inteligencia biztonságosság benchmark biztonság LLM nagy nyelvmodellek nagy nyelvi modell

Nagy nyelvmodelleket nehéz összehasonlítani: az egyik fejlesztőcégnek mégis sikerült szinte mindenre kiterjedő kritériumlistát összeszednie, amely alapján változatos kategóriákban lehet rangsorolni őket.

A nyílt forrású nagy nyelvmodelleket fejlesztő Hugging Face startup négy új ranglistát vezetett be a mesterségesintelligencia-forradalmat mozgató nagy nyelvmodellek (large language models, LLM) teljesítmény és megbízhatóság alapján történő rangsorolására.

A teljesítmény rangsorolása a munkahelyi hasznosság, a bizalom és biztonság, a hazugságok generálására való hajlam és az érvelés/következtetés megítélése alapján történik. A Hugging Face és üzleti partnerei által fejlesztett benchmarkokat, mércéket vezetnek be. Felhasználók és fejlesztők nyílt modelleket küldhetnek az egyes ranglista-oldalakon történő tesztelésre. A Hugging Face általában különválasztja a mellékelt zárt modelleket.

Vállalati forgatókönyvek

A mesterségesintelligencia-kiértékelő Patronus startup által létrehozott Vállalati Forgatókönyvek Ranglistájához a modellek pontosságát pénzügyekkel, joggal, ügyfélszolgálattal és kreatív írással kapcsolatos kérdésekkel tesztelik. Azt is mérik, hogy a modell mekkora valószínűséggel ad toxikus válaszokat, vagy szivárogtat ki bizalmas információt. Minden egyes benchmark 1 és 100 közötti szám, és a legmagasabb átlagot elérő modell az első, bár az egyes feladatok kivitelezésében nyújtott teljesítmény alapján is rangsorolhatók.

Megbízhatóság

A biztonsági és biztonságossági ranglista a Biztonságos Tanulás Labor több egyetem és a Microsoft MI Biztonság Központja által kidolgozott bizalom dekódolása benchmarkja alapján rangsorol. Toxicitás, méltányosság, gyakori társadalmi sztereotípiák használata, bizalmas információk kiszivárogtatása, általánosítás és biztonság alapján ítélik meg a modellek kimeneteit. A pontozási módszertan hasonló a Vállalati Forgatókönyvek Rangsorához.

Mennyire néznek be dolgokat, találnak ki történeteket?

A „hallucinációs” ranglista az Eleuther AI-tól átvett tizennégy benchmark alapján készül. A teszteken tárgyszerű kérdésekre adott válaszokat, újsághírek összefoglalásának képességét, a szövegértést, utasítások követését, valamint azt mérik, mennyire tudják a modellek egy állításról megállapítani: igaz vagy hamis.

Következtetés és döntéshozás

Az NPHardEval Ranglista a Michigan és a Rutgers egyetemek által, az érvelést/következtetés és a döntéshozás képességét mérő benchmarkok. A teszt dinamikusan generált, havonta frissített 900 logikai problémát tartalmaz (10-100 kilenc különböző matematikai algoritmushoz).

A többi ranglista

Az új ranglisták kiegészítik a Hugging Face korábbi LLM-Perf, Open LLM és LMSYS Chatbot Arena ranglistákat. Az első a késleltetést, az átviteli sebességet, a memóriahasználatot és az energiaigényt méri, a második a nyílt forrású opciókat az Eleuther AI kiértékelését használva rangsorolja, a harmadik a chatrendszereket ítéli meg vakteszt és felhasználói teljesítmény alapján.

Az ilyen ranglisták óriási segítséget jelentenek az MI fejlesztői közösségeknek. Objektíven ítélik meg a csúcsmodelleket, hamar kész az összehasonlítás, könnyebb megtalálni a legjobb modellt az adott feladathoz. Növelik az átláthatóságot, segítenek fejlesztői célok pontosításában.

(Képek: Pexels, DeepLearning.AI)