Nyílt forrású nyelvmodelleken dolgozik az Apple

Kömlődi Ferenc

2024. máj 7.

MEGOSZTÁS

Technológia Új technológiák Adatgazdaság Felhő Biztonság Telco

neurális hálózat nyílt forráskód open soucre Apple mesterséges intelligencia okostelefon

Az almás cég nemcsak nyílt forrású, de meglehetősen kicsi LLM-eket mutatott be. Eddigi eredményeik bizakodásra adnak okot, ráadásul az a cél, hogy a modellek peremeszközökön, tehát okostelefonokon is fussanak, így pedig a felhasználó magánadatai is védettebbek.

Az Apple eddig kimaradt a mesterségesintelligencia-forradalomból. Csak tavaly kezdtek szivárogni hírek az almás cég ilyen jellegű törekvéseiről, amelyeket pár hete meg is erősítettek. A napokban pedig nyilvánosságra hozták a Nyílt Forrású Hatékony LLM (OpenELM) nagy nyelvmodell-családot.

Az OpenELM nevével ellentétben inkább kisebb, 270 millió és hárommilliárd paraméter közötti MI-kből áll: 270 milliós, 450 milliós, 1,1 milliárdos, hárommilliárdos modellekről van szó. Közzétették a súlyokat, a gyakoroltatáshoz és következtetéshez használható, valamint az Apple-chipeken való futtatáshoz szükséges kódokat.

Miben különböznek a többi nyíltforrású modelltől?

Az OpenELM-ek előzetes gyakoroltatását nyilvánosan elérhető szöveges adatkészletek részhalmazaiból összeszedett 1800 milliárd tokenen végezték. Az utasításokkal kalibrált modelleket hatvanezer promptot tartalmazó adatkészleten (UltraFeedback) finomhangolták.

A modellek a legfejlettebb transzformerek architektúrájával működnek, egy nagy különbséggel: a hálózat hátrébb lévő rétegei az input összetettebb reprezentációit tanulják meg, mint a korábbiak. Minél mélyebben vannak a hálózatban, a figyelem-egységek száma és a teljesen összekapcsolt rétegek mérete annál inkább növekszik. Ez az architektúra ellentétes a jelenlegi gyakorlattal, amelyben az arányok a hálózat egészében, végig konzisztensek maradnak.

Az eddigi eredmények bíztatóak, az Apple modelljei csak nyilvánosan hozzáférhető adatokon gyakorolt, számos más nyíltforrású modellnél jobban teljesítettek.

Kisebb neurális hálókkal irány az okostelefónia!

Az 1,18 milliárd paraméteres, kétszer annyi adaton gyakorolt OLMo-t 45,93-43,57-re verte az 1,08 milliárd paraméteres OpenELM.

Az átlagfogyasztói szintű számítógépeken futó 270 millió paraméteres modell kétszer gyorsabbnak bizonyult, mint a hárommilliárdos. (Az Apple nem közölt adatokat okostelefonos eredményekről.)

A matematikai és mikrogazdasági több-választásos kérdések megmérettetésen az Apple modelljei elég pocsékul teljesítettek, bár a többiek sem tündököltek – eredményeik alig voltak jobbak.

A megközelítés azért érdekes, mert a neurális hálók hosszú évekig nagyobbak és még nagyobbak lettek, és csak az utóbbi időben kezdtek el kisebbé válni. Az Apple célja, hogy peremeszközökön (edge computing), például okostelefonokon is fussanak, ahhoz pedig nem árt, ha nem gigantikus méretűek. Ha nem a számítási felhőben ténykednek, a felhasználói adatok nagyobb biztonságban maradnak, és ha a magánadatok védelme erősebb, az eladási mutatók tovább javulhatnak.

(Képek: Flickr, Rawpixel)