Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Végre rangsorolható a nagy nyelvmodellek megbízhatósága

MEGOSZTÁS

Nagy nyelvmodelleket nehéz összehasonlítani: az egyik fejlesztőcégnek mégis sikerült szinte mindenre kiterjedő kritériumlistát összeszednie, amely alapján változatos kategóriákban lehet rangsorolni őket.

A nyílt forrású nagy nyelvmodelleket fejlesztő Hugging Face startup négy új ranglistát vezetett be a mesterségesintelligencia-forradalmat mozgató nagy nyelvmodellek (large language models, LLM) teljesítmény és megbízhatóság alapján történő rangsorolására.

A teljesítmény rangsorolása a munkahelyi hasznosság, a bizalom és biztonság, a hazugságok generálására való hajlam és az érvelés/következtetés megítélése alapján történik. A Hugging Face és üzleti partnerei által fejlesztett benchmarkokat, mércéket vezetnek be. Felhasználók és fejlesztők nyílt modelleket küldhetnek az egyes ranglista-oldalakon történő tesztelésre. A Hugging Face általában különválasztja a mellékelt zárt modelleket.

Vállalati forgatókönyvek

A mesterségesintelligencia-kiértékelő Patronus startup által létrehozott Vállalati Forgatókönyvek Ranglistájához a modellek pontosságát pénzügyekkel, joggal, ügyfélszolgálattal és kreatív írással kapcsolatos kérdésekkel tesztelik. Azt is mérik, hogy a modell mekkora valószínűséggel ad toxikus válaszokat, vagy szivárogtat ki bizalmas információt. Minden egyes benchmark 1 és 100 közötti szám, és a legmagasabb átlagot elérő modell az első, bár az egyes feladatok kivitelezésében nyújtott teljesítmény alapján is rangsorolhatók.

Megbízhatóság

A biztonsági és biztonságossági ranglista a Biztonságos Tanulás Labor több egyetem és a Microsoft MI Biztonság Központja által kidolgozott bizalom dekódolása benchmarkja alapján rangsorol. Toxicitás, méltányosság, gyakori társadalmi sztereotípiák használata, bizalmas információk kiszivárogtatása, általánosítás és biztonság alapján ítélik meg a modellek kimeneteit. A pontozási módszertan hasonló a Vállalati Forgatókönyvek Rangsorához.

Mennyire néznek be dolgokat, találnak ki történeteket?

A „hallucinációs” ranglista az Eleuther AI-tól átvett tizennégy benchmark alapján készül. A teszteken tárgyszerű kérdésekre adott válaszokat, újsághírek összefoglalásának képességét, a szövegértést, utasítások követését, valamint azt mérik, mennyire tudják a modellek egy állításról megállapítani: igaz vagy hamis.

Következtetés és döntéshozás

Az NPHardEval Ranglista a Michigan és a Rutgers egyetemek által, az érvelést/következtetés és a döntéshozás képességét mérő benchmarkok. A teszt dinamikusan generált, havonta frissített 900 logikai problémát tartalmaz (10-100 kilenc különböző matematikai algoritmushoz).

A többi ranglista

Az új ranglisták kiegészítik a Hugging Face korábbi LLM-Perf, Open LLM és LMSYS Chatbot Arena ranglistákat. Az első a késleltetést, az átviteli sebességet, a memóriahasználatot és az energiaigényt méri, a második a nyílt forrású opciókat az Eleuther AI kiértékelését használva rangsorolja, a harmadik a chatrendszereket ítéli meg vakteszt és felhasználói teljesítmény alapján.

Az ilyen ranglisták óriási segítséget jelentenek az MI fejlesztői közösségeknek. Objektíven ítélik meg a csúcsmodelleket, hamar kész az összehasonlítás, könnyebb megtalálni a legjobb modellt az adott feladathoz. Növelik az átláthatóságot, segítenek fejlesztői célok pontosításában.

(Képek: Pexels, DeepLearning.AI)

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!