Mi lesz a nyílt forráskódú mesterséges intelligenciával?

Kömlődi Ferenc

2023. máj 19.

MEGOSZTÁS

gépi tanulás mesterséges intelligencia DeepMind OpenAI Facebook nyelvtechnológiák nagy nyelvmodellek nyílt forráskód képtechnológiák nyílt forráskódú MI generatív MI Google

Amikor az OpenAI áprilisban bejelentette a GPT-4 új változatát, azt is közölte, hogy a verseny és a biztonság miatt az ismertetőben nem részletezik a nyelvmodell architektúráját, méretét, hardvert, gyakorlóadatokat, szinte semmit, amiből hasonlót lehetne fejleszteni. Az egyik társalapító szerint a nyíltság a múlt hibás gyakorlata, mások viszont a nyílt forrású MI-ben látják a jövőt.

Nyitókép: Pixabay

A mesterséges intelligencia, elsősorban a nagy nyelvmodellek (large language models, LLM) a jelen legdinamikusabban fejlődő infokommunikációs technológiája. A felgyorsulás az „MI-állóvízbe” berobbant mélytanulás (deep learning) elterjedésével kezdődött a 2010-es évek első felében, aztán a Google DeepMindjának AlphaGoja 2016 elején legyőzte az akkori go-világranglista negyedik helyezettjét, miközben a londoni DeepMind leendő legnagyobb riválisa, a sokáig nonprofit kaliforniai OpenAI 2018 júniusában bemutatta a GPT-1 nyelvmodellt, két évvel később pedig az „MI-aranylázt” beindító GPT-3-at. A generatív technológia 2022-ben, előbb a szövegből képet létrehozó modellekkel, majd év végén a ChatGPT-vel tudatosította a nagyközönségben, az átlagemberben a mesterséges intelligencia hollywoodi ítéletnap-forgatókönyveken, riogatásokon és rettegőkön túlmutató valódi és hasznos potenciálját. A ChatGPT érte el, hogy manapság boldog-boldogtalannak van véleménye a technológiáról. (A GPT egyébként a csúnya magyarításban „generatív, előre gyakoroltatott átalakító”, a Generative Pre-trained Transformer rövidítése.)

Az MI-fejlesztések azonban ismét keresztúthoz érkeztek. Néhány óriásvállalat fogja végérvényesen meghatározni a technológia jövőjét, vagy a mostanra felvirágzott nyílt forrású fejlesztéseknek is lesz komoly beleszólásuk a hogyan tovább kérdésébe?

Aggodalom a Szilícium-völgyben

A válasz nem egyértelmű, az viszont igen, hogy az OpenAI, a Google és a többiek főszereplők maradnak, az open source ökoszisztéma és nagyágyúk (Hugging Face, Stability AI stb.) innovációhoz való jövőbeli hozzájárulása viszont bizonytalan. Az ok a legprózaiabb: az MI óriási üzletté vált, és még nagyobb biznisz lesz. Olyannyira, hogy sokan már „mesterségesintelligencia-korszakról” beszélnek, mások öt éven belüli általános MI-ről (artificial general intelligence, AGI) vizionálnak. Ha gépi intelligenciáról beszélünk, azt a tényt mindig vegyük figyelembe, hogy a mai MI-k bizonyos – szűk, korlátozott, részterületekre érvényes – intelligenciával ugyan rendelkeznek, tudattal viszont nem, és egyetlen mostani fejlesztésnek sem az ön- és én-tudatra ébresztésük a célja. Hogy miért? Mert más az intelligencia, és más a tudatosság.

Az óriások versus nyílt forráskód polémia szempontjából fontos, hogy május elején kiszivárgott egy memó, melyben egy Google-mérnök megfogalmazta a Szilícium-völgyben hetek óta terjedő igét: a nyílt forrású, szabad hozzáférést és ingyen MI-t mindenkinek törekvések fenyegetik a Big Tech (azaz az érintett nagyvállalatok) uralmát a technológia felett. A Google hamarosan közölte, hogy magánvéleményről és nem a cég hivatalos álláspontjáról van szó.

Segít a Google nagy nyelvmodellje, a Bard (Kép: Pexels)

Az aggodalomra a GPT-4 vagy a Bard kisebb és jóval olcsóbban előállított, teljesítményben viszont nem sokkal lemaradó egyre több alternatív, ingyen megosztható változata ad okot akkor, amikor a Google éves termékbemutatóján közölte a vezetőség: a Gmailtől a Mapsig mindenbe pakolnak generatív MI-t. Miközben a nagyok egymással rivalizálnak, egy harmadik, kívülálló csoport csendben elhappolja a dicsőséget – figyelmeztet a Google-mérnök.

Ami nem lenne világvége, mert minél többen férnek hozzá a csúcsmodellekhez, annál erőteljesebben dübörög az innováció – végtére az internet is nyílt forrású szoftveren fut, a több évtizedes koncepció jelentősen hozzájárult az infokom fejlődéséhez –, és ha a terület a szupergazdag vállalatok privilégiuma, akkor csak ők, a kapuőrök döntenek az MI használatáról.

A helyzet azonban messziről sem ennyire fekete-fehér, mert a nyílt forrású MI virágzásából a legnagyobbak, elsősorban az OpenAI és a Meta is bőven kivették a részüket. Hozzájárultak modelljeik használatához (Meta), vagy szemet hunytak felette (OpenAI), ha viszont most bekeményítenének, befellegzene az open source AI diadalútjának.

Átláthatóság és biztonság

A legtöbb nyílt forrású modell a Meta AI szintén nyílt forrású nagy nyelvmodelljén, a LLaMA-n alapul, míg a GPT-3-at az OpenAI úgy csinálta meg, hogy könnyű legyen visszafejteni (reverse engineering), majd ráépíteni valami – módosított – újat. Nem meglepő, de elgondolkodtató, hogy a LLaMA megjelenését követő napokban valaki a teljes modellt és a komplett futtatási utasítástárt kiposztolta a vitatott megítélésű 4chan internetes fórumon.

A nagyobb verseny miatt az OpenAI megváltoztatta a nyíltságra vonatkozó álláspontját, és a Meta is hasonló lépést fontolgat, bár a nagyvállalat MI-szekcióját vezető mélytanulás-úttörő Yann LeCun a nyílt forráskód híve. Az esetleges váltás például azért történhet meg, mert az egyre több szakterületi startup miatt egyre áttekinthetetlenebb a terep, és a nyílt forráskódot nemcsak mindenki javát szolgáló fejlesztésekre, diverzifikációra, hanem alantasabb célokra, dezinformációra, propagandára stb. is fel- és ki lehet használni. Ha ez megtörténik, búcsút inthetünk a LLaMA szabad felhasználásának.

Algoritmikusan generált, MI-művészet (Kép: Wikimedia Commons)

Meg kell találni az átláthatóság és a biztonság helyes arányát – fogalmazta meg a Meta AI egyik főnöke, amit megint csak könnyebb kimondani, mint megvalósítani. A fejlődés pedig annyira gyors, hogy még a közvetlen tűzközelben lévők sem látják, mi lesz két-három, de akár egy év múlva. A jelenlegi állás alapján, a fejlesztések bárhonnan jöhetnek, áttörésszerű, mindent megrengető, irányváltoztató innovációk viszont a „nagyoktól” várhatók. A „kicsik” csak az előző generációs termékekből csemegézhetnek majd.

A nyílt forrású MI-szcéna főszereplői

A Hugging Face a nyílt forrású MI legismertebb lépviselője, chatbotja, a márciusban bemutatott HuggingChat a tizenháromezer önkéntes segítségével trenírozott korábbi Open Assistant finomhangolt változata. Maga az Open Assistant a LLaMA-ra épült. A cég több modelljének letöltése azonban engedélyhez kötött, mert azt szeretnék, hogy csak azok használják, akiknek okuk van rá.

A Stable Diffusion-nel elhíresült Stability AI szintén márciusban, 19-én tette közkinccsé nyílt forrású StableLM nyelvmodelljét, egy hétre rá pedig a beszélgetésre optimalizált StableVicuna változatot. Elég egyértelmű a GPT-4 és a ChatGPT párhuzam, bár a vezetőség szerint modelljük a GPT-4 közelébe sem ér. A Stable Diffusion teljesen más történet, mert az kb. ugyanaz a szint, mint a DALL-E (OpenAI) vagy az Imagen (Google) – állítják.

A HuggingChat és a StableLM nincs egyedül, más nyílt forrású szereplők is nagyon aktívak: a Stanford Egyetem egyik kutatócsoportja az Alpacaval, a szoftverfejlesztő Databricks a Dollyval, a Cerebras MI-startup a Cerebras-GPT-vel jelentkezett be. A modellek zöme a LLaMA-ra épül (a Cerebras-GPT egy DeepMind-modellre), legtöbbjük gyakoroltatásához a GPT-3-at visszafejtő és a nyílt forrású MI-ökoszisztémában kvázi-megkerülhetetlen nonprofit ElentherAI nyilvános Pile adatsorát használják. És ez valószínűleg csak a kezdet, mert borítékolhatóan szélvészgyorsan jönnek az új és még újabb nyílt forrású fejlesztések.

A Stable Diffusion-nel alkotott futurisztikus elektromos autó a bilbaói Guggenheim-műzeum mellett (Kép: Flickr)

Sokuknak a nyílt forráskód elvi állásfoglalás. A generatív MI-t ki kell venni a nagy korporációk kezéből, mert mindenkit megillet – vallják, és a harcot soha nem adják fel. Mások, például a Stability AI kivárnak. A cég bizakodik a chatbot StableDiffusion-höz hasonló sikerében, aztán ügyfélkörüknek egyéni igények szerinti termékeket fejlesztve, busásan profitálnak majd az innovációból.

Exponenciális növekedés, vagy gúzsba kötnek a számok?

A fejlődés logikája, hogy ha minél több a nyílt forrású MI, annál több nyílt forrású MI lesz a jövőben. A növekedés exponenciális lehet, világszerte millióan járulhatnak hozzá.

Az eddigi gyakorlat alapján viszont szinte lehetetlen a semmiből létrehozni és gyakoroltatni nagy generatív modelleket. Rájuk építeni és módosítani rajtuk már annál inkább, és egyelőre főként ez a mai nyílt forrású MI. Minél nagyobb a modell, annál nehezebb és drágább a trenírozás. A paraméterszámnak nincs felső korlátja, iszonyatos hardver-, GPU-kapacitások kellenek. Számszerűsítve: a GPT-3 175, a LLaMA 65 milliárd paraméteres, míg a legtöbb nyílt forrású startup esetében tízmilliárd a plafon.

Izgalmas időket élünk.