A nyílt forrású nagy nyelvmodelleket fejlesztő Hugging Face startup négy új ranglistát vezetett be a mesterségesintelligencia-forradalmat mozgató nagy nyelvmodellek (large language models, LLM) teljesítmény és megbízhatóság alapján történő rangsorolására.
A teljesítmény rangsorolása a munkahelyi hasznosság, a bizalom és biztonság, a hazugságok generálására való hajlam és az érvelés/következtetés megítélése alapján történik. A Hugging Face és üzleti partnerei által fejlesztett benchmarkokat, mércéket vezetnek be. Felhasználók és fejlesztők nyílt modelleket küldhetnek az egyes ranglista-oldalakon történő tesztelésre. A Hugging Face általában különválasztja a mellékelt zárt modelleket.
Vállalati forgatókönyvek
A mesterségesintelligencia-kiértékelő Patronus startup által létrehozott Vállalati Forgatókönyvek Ranglistájához a modellek pontosságát pénzügyekkel, joggal, ügyfélszolgálattal és kreatív írással kapcsolatos kérdésekkel tesztelik. Azt is mérik, hogy a modell mekkora valószínűséggel ad toxikus válaszokat, vagy szivárogtat ki bizalmas információt. Minden egyes benchmark 1 és 100 közötti szám, és a legmagasabb átlagot elérő modell az első, bár az egyes feladatok kivitelezésében nyújtott teljesítmény alapján is rangsorolhatók.
Megbízhatóság
A biztonsági és biztonságossági ranglista a Biztonságos Tanulás Labor több egyetem és a Microsoft MI Biztonság Központja által kidolgozott bizalom dekódolása benchmarkja alapján rangsorol. Toxicitás, méltányosság, gyakori társadalmi sztereotípiák használata, bizalmas információk kiszivárogtatása, általánosítás és biztonság alapján ítélik meg a modellek kimeneteit. A pontozási módszertan hasonló a Vállalati Forgatókönyvek Rangsorához.
Mennyire néznek be dolgokat, találnak ki történeteket?
A „hallucinációs” ranglista az Eleuther AI-tól átvett tizennégy benchmark alapján készül. A teszteken tárgyszerű kérdésekre adott válaszokat, újsághírek összefoglalásának képességét, a szövegértést, utasítások követését, valamint azt mérik, mennyire tudják a modellek egy állításról megállapítani: igaz vagy hamis.
Következtetés és döntéshozás
Az NPHardEval Ranglista a Michigan és a Rutgers egyetemek által, az érvelést/következtetés és a döntéshozás képességét mérő benchmarkok. A teszt dinamikusan generált, havonta frissített 900 logikai problémát tartalmaz (10-100 kilenc különböző matematikai algoritmushoz).
A többi ranglista
Az új ranglisták kiegészítik a Hugging Face korábbi LLM-Perf, Open LLM és LMSYS Chatbot Arena ranglistákat. Az első a késleltetést, az átviteli sebességet, a memóriahasználatot és az energiaigényt méri, a második a nyílt forrású opciókat az Eleuther AI kiértékelését használva rangsorolja, a harmadik a chatrendszereket ítéli meg vakteszt és felhasználói teljesítmény alapján.
Az ilyen ranglisták óriási segítséget jelentenek az MI fejlesztői közösségeknek. Objektíven ítélik meg a csúcsmodelleket, hamar kész az összehasonlítás, könnyebb megtalálni a legjobb modellt az adott feladathoz. Növelik az átláthatóságot, segítenek fejlesztői célok pontosításában.
(Képek: Pexels, DeepLearning.AI)