Óriási a versenyfutás a mesterségesintelligencia-piacon, egyik modell a másik után jön ki. Jó hír, hogy masszív multimodális modellek egyre szélesebb körben és alacsonyabb áron szerezhetők be. A tendencia fejlesztőknek és kutatóknak egyaránt kedvez. A terület élenjárója, az OpenAI GPT-4o mini változata kiemelkedik a mezőnyből: új mércét jelenthet a többi szereplőnek, mostantól ezt a modellt kell felülmúlniuk.
Az ár ágenses munkafolyamatokon dolgozó fejlesztőknek külön jól jöhet, mert nagymennyiségű tokent kell feldolgozniuk a megfelelő outputokhoz.
Nem is olyan régen a nagy nyelvmodellekkel (large language models, LLM) a határokig igyekeztek elmenni. Minél nagyobbakat akartak a fejlesztők, magas számításigénnyel, máskülönben nem tudták volna növelni a modell paramétereinek számát. Nagyobb modellek építésével azonban könnyebb lett költséghatékonyabb kisebbeket is létrehozni, amelyek majdnem ugyanannyit tudnak. A költségek esnek, a hatékonyság nő – mindenki jól jár.
Mit tud a GPT-4o?
A GPT-4o mini változata a cég szerint jobban teljesít, mint a Google és az Anthropic hasonló méretű modelljei, ráadásul az OpenAI olcsóbban kínálja az API (alkalmazásprogramozói felület) hozzáférést. A ChatGPT ingyenes változatának is ez a mostani alapja.
Minimodellek összehasonlítása
Az API-hozzáférés ára 0,15-0,60 dollár egymillió input/output tokenért. A nagytestvérnél ez öt és tizenöt dollár, míg a GPT-3.5 Turbo esetében 0,50 és 1,50 dollár közötti összeg.
A GPT-4o mini jelenlegi állapotában szöveges és képes outputokat fogad be, az outputok pedig szövegesek. A kép outputok és a videó-, valamint audió input/output funkció hamarosan elérhető lesz. Az OpenAI nem közölt infót az architektúráról és a gyakoroltatásról, azt viszont elmondták, hogy a modell mérete nagyjából megegyezik a Claude 3 Haiku (Anthropic), a Gemini 1.5 Flash (Google) és a Llama 3 (Meta) nyolcmilliárd paraméteres verziójának méretével. 128 ezer tokennel dolgozik, 16400 token az output.
Jönnek a minimodellek
Júliusban több kisebb nyelvmodell jelent meg, így nem túlzás hullámról beszélni.
A Franciaország élenjáró MI-fejlesztőjének számító Mistral és az Nvidia együtt adták ki a méretben a GPT-4o-val nagyjából azonos, a többi kisebb modellnél viszont nagyobb Mistral NeMo 12 milliárd paraméteres modellt. Apache 2.0 nyíltforrású licenccel használható.
A szintén Apache 2.0 licenccel beszerezhető amerikai-francia Hugging Face SmolLM terméke három még kisebb modellből álló, kifejezetten mobileszközökön való futtatásra fejlesztett „család.”
Képek: OpenAI