Jövő Prompt Mérnökök nélkül?

Tölgyes László András

2023. dec 6.

MEGOSZTÁS

A generatív mesterséges intelligencia körüli felhajtásban van egy szikár, de gyakran figyelmen kívül hagyott hős: a prompt mérnök. Ő a bábjátékos a függöny mögött, ő mozgatja a szálakat, és teszi az MI-t nem csak működőképessé, hanem kivételessé. De mi van akkor, ha a prompt engineering bimbózó területét maga a mesterséges intelligencia helyettesítheti hamarosan?

(Kiemelt kép: Unsplash+)

A ChatGPT 2022. novemberi megjelenése óta nem csak egy hullámot, hanem egy teljes mesterséges intelligencia-cunamit lovagoltunk meg. Az MI fejlődése bekerült a köztudatba, de a képességek nem itt kezdődtek és nem is itt érnek véget. A GPT-4-el olyan multimodális mesterséges intelligencia áll rendelkezésünkre, mely már nem csak a szavakról szól. A különböző típusú adatokkal, köztük képekkel is képes dolgozni, és e képességek egyesítése lenyűgöző azok számára, akik először találkoznak vele. Olyan, mintha egy ügyes kis „partitrükktől” eljutottunk volna valami olyanhoz, ami megközelíti az emberhez hasonló intelligenciát, legalábbis a szavak terén. A GPT és a hozzá hasonló nagy méretű nyelvi modellek megjelenése alapvetően megváltoztatta a mesterséges intelligenciával való interakcióinkat, sőt az arról való gondolkodásunkat is. Ezek a modellek, melyek korábban nagymértékben támaszkodtak a prompt engineeringre a hatékony válaszok érdekében, most fokozatosan saját magukat képzik ki, minden egyes API-hívásból és a felhasználói felületről érkező inputból merítve. Ahogy 2024-re és azon túlra tekintünk, olyan valósággal nézünk szembe, amelyben a prompt mérnök szerepe könnyen lehet, hogy elavulttá válik, és a felhasználók még fontosabb szerepet játszanak az MI képzésében.

A jövő Prompt Mérnökök nélkül — A GPT és a hozzá hasonló nagy méretű nyelvi modellek megjelenése alapvetően megváltoztatta a mesterséges intelligenciával való interakcióinkat, sőt az arról való gondolkodásunkat is. Ezek a modellek, melyek korábban nagymértékben támaszkodtak a prompt engineeringre a hatékony válaszok érdekében, most fokozatosan saját magukat képzik ki, minden egyes API-hívásból és a felhasználói felületről érkező inputból merítve (Fotó: Unsplash+)

Mi az a Prompt Mérnökség?

Ahhoz, hogy megértsük a lehetséges jövőt, vissza kell tekintenünk a múltba, elengedhetetlen, hogy megértsük a prompt engineering és a prompt mérnökök jelentőségét (ha egyáltalán létezett ilyen). A GPT és a hasonló modellek korai időszakában az értelmes kimenet létrehozása nem volt olyan egyszerű, mint egy kérdést feltenni, majd választ kapni rá. A kéréseket gondosan meg kellett alkotni, hogy a modellt a kívánt válasz előállítására irányítsák. A prompt mérnök volt az a képzett kézműves, aki ezeket a bonyolult bemeneteket megszövi, lehetővé téve a felhasználók számára, hogy értékes kimeneteket nyerjenek ki a hatalmas neurális hálózatokból, vagyis ők tudták, hogyan kell jobb kérdéseket feltenni.

Felhasználói bemenetek

A dolgok megváltoztak az idők során. Minden alkalommal, amikor a felhasználó interakcióba lép ezekkel a modellekkel, két dolog történik: a felhasználó választ kap, ahogyan azt elvárnánk, de a modell is tanul a bemenetből. Ez a felhasználók milliói által vezérelt folyamatos „visszacsatolási kör” azt eredményezte, hogy a modellek egyre jobbak és intuitívabbak lettek. Az elmúlt néhány évben a felhasználói interakciók puszta mennyisége és sokfélesége lehetővé tette, hogy ezek a modellek olyan mintákat lássanak, finomítsák kimeneteiket, és olyan módon értsék meg a kontextust, ami korábban elképzelhetetlen volt. Következésképpen csökkent az igény az aprólékosan kidolgozott „súgókra”. A felhasználók különböző platformokon és alkalmazásokon keresztül érkező inputjai kellőképpen felkészítették a mesterséges intelligenciát, ami sokoldalúbbá tette azt.

Az evolúciós visszacsatolási hurok

Lenyűgöző belegondolni, hogy ez a folyamat hogyan tükrözi a biológiai evolúciót. Ahogyan az élőlények generációk során alkalmazkodnak a környezetükhöz a kihívások és a visszajelzések alapján, úgy az MI-modellek is folyamatosan alkalmazkodnak a hatalmas digitális ökoszisztémához, melyben élnek. Minden egyes interakcióból „tanulnak tanulni”, legyen az egy kvantumfizikai kérdés vagy egy receptkérés. Ahogy egyre több ember használja ezeket a modelleket különböző alkalmazásokhoz, a tudományos kutatástól a kreatív írásig, az MI az emberi lekérdezések és interakciók kollektív tárházává válik. Ez a felhasználó által vezérelt visszacsatolási kör egy erőteljes, önfejlesztő mechanizmusként szolgál, amely növeli a modell pontosságát és hatékonyságát.

A jövő Prompt Mérnökök nélkül

Mit tartogat tehát 2024 a mesterséges intelligencia birodalma számára, különösen a prompt mérnöki képzettséggel rendelkezők számára? Véleményünk szerint az ő konkrét szerepük egyre kevésbé lesz releváns, exponenciálisan csökken. A 2024-es és az azt követő évek modelljei valószínűleg sokkal intuitívabbak és érzékenyebbek lesznek elődeiknél. Ez további kérdéseket vet fel azzal kapcsolatban, hogy milyen szerepkörökre lesz hatással ez a folyamatos modellfejlesztés (vagy -romlás, ami még mindig lehetséges). Felhasználóként nem csak passzív információfogyasztók leszünk, hanem aktív résztvevői a mesterséges intelligencia tanulási folyamatának. Kérdéseink, kételyeink és interakcióink folyamatosan alakítják és újrafogalmazzák majd a mesterséges intelligencia tudásbázisát és válaszmechanizmusát. Jóban-rosszban úgy gondoljuk, hogy elérkeztünk ahhoz a ponthoz, ahonnan nincs visszaút, a „szemétdomb” az idő előrehaladtával egyre nagyobb lesz.

A prompt engineering halála nem egy végkifejlet, hanem inkább egy evolúciós történet, melyet szorosan szemmel kell tartanunk. Ez jelzi az átmenetet egy olyan fázisból, amikor a mesterséges intelligencia egy eszköz volt, melyet gondosan kidolgozott bemenetekkel manipuláltak, egy olyan korszakba, amikor az MI egy dinamikus, fejlődő entitás, mely együtt tanul a felhasználóival. Ez aláhúzza a kollektív felhasználói interakciók erejét a technológia jövőjének alakításában. És ahogy közeledünk a 2023-as év vége, valamint a ChatGPT és más nyelvi modellek buborékja felé, úgy haladunk a 2024-es év felé, ahol erőfeszítéseink potenciális realitása arra késztethet minket, hogy elgondolkodjunk azon, hogy mit is tettünk valójában.

A Prompt Mérnökség halott?

Miért érdemes (még) megtanulni ezt a kritikus készséget, mielőtt elavulttá válik. Idén tavasszal a TIME arról számolt be, hogy a Prompt Mérnökök akár évi 335.000 dollárt is kereshetnek és ehhez nem szükséges főiskolai diploma. Eltekintve attól, hogy a ChatGPT hype miatt rengeteg új bootcamp és gyors meggazdagodási program jött létre, az informatikusok elgondolkodtak: „335.000 euró évente? Hogyan lehetséges ez egyáltalán?” Az indoklásunk: a prompt engineering még csak nem is egy valódi mérnöki tudományág. A ChatGPT idén viharszerűen bejárta a világot. Függetlenül az mi szerepünktől, tartományától vagy technikai hátterétől, jó eséllyel mi is terveztünk már promptot, például amikor utoljára utasítottuk a ChatGPT-t, a Binget, a Bardot vagy a Midjourney-t, hogy generáljon nekünk egy kimenetet. De ha azt hisszük, hogy a generatív MI-projektek prompt-technikája csak ennyi lenne, akkor gondoljuk át újra.

Talán csak egy hóbort volt?

MI-suttogó, Prompt Mérnök, Prompt Tervező: akárhogy is nevezzük, egy MI modell természetes nyelven keresztül történő utasítása egy kimenet létrehozására meglehetősen új készség. Még csak 9-12 hónapja létezik, vagy talán 36 hónapja, ha nagyvonalúak vagyunk. Ennyi idő alatt volt nyilvánosan elérhető a ChatGPT, a DALL-E 3 és a GPT-3-4 és társai. Így természetesen azok, akik már egy ideje használják ezeket a termékeket (és tudják, hogyan kell használni őket), nagy keresletnek örvendenek. De a sokak számára új karrierlehetőséggel kapcsolatos izgalom mellett egy kérdés is felmerül: „Mennyi ideig kell még egyáltalán súgókat terveznünk, mielőtt egy másik interfész lesz az uralkodó módszer?”.

A GPT-3 már 2020 óta elérhető. Legalábbis azóta a prompting a domináns módszer a nagy nyelvi modellek kimenetének kiváltására. De a Midjourney, a DALL-E 2 és 3, a ChatGPT stb. volt az, ami a prompt engineeringet új jelenséggé tette az elmúlt hónapokban. De a munkaerő túlnyomó többsége még egyetlen promptot sem készített. Tehát a generatív mesterséges intelligencia felé való roham ellenére ez azt jelenti, hogy ha fontolgatjuk, hogy kiépítjük vagy bővítjük prompt-technikai készségeinket, akkor még mindig előrébb járunk versenytársainknál (hiszen lassú az ébredés, mindenki csak beszél róla unalmas konferenciákon). De egy olyan prompt megalkotása, mely gyorsan hozza a kívánt kimenetet, nem triviális feladat. Gyakran igényel kísérletezést és iterációt. Ha a történelem előrejelzésként szolgál, akkor feltételezhetjük, hogy a prompt mérnöki feladat csupán efemer jelenség és átmeneti trend lehet csupán. Ez még csak a kezdet. Egy ugródeszka ahhoz, hogy magasabb szintű módszereket és szolgáltatásokat hozzunk létre, melyekkel utasíthatjuk a modellt egy kimenet létrehozására. És a „prompting” még kényelmesebbé és megbízhatóbbá is fog válni, mielőtt elavulttá válik. Nézzük meg, hogyan fejlődhet ez tovább.

Három lehetséges forgatókönyv

Három lehetséges forgatókönyvet látunk arra vonatkozóan, hogyan fejlődhet a prompt engineering: A „status quo” a lehető legjobb. A prompting a módja annak, hogy egy modell kimenetet generáljon. Mindig is promptolni fogunk, és ez az uralkodó módszer. Ennyi. Bárkinek, aki egy alapmodellel szeretne dolgozni, meg kell tanulnia a prompting készségeket: ahogyan annak is, aki a tudományos életben keresést szeretne használni, meg kell értenie a kapcsolódó témákat és a Boole-függvények logikáját a keresési lekérdezés meghatározásához. Ugyanakkor ez a legvalószínűtlenebb forgatókönyv is a három közül. Feltételezhetjük, hogy a prompting evolúción megy keresztül. A promptolás egyre könnyebb lesz. Ebben a lehetőségben kétféleképpen és két érdekcsoport számára lesz könnyebb: a prompt mérnökök, akik a tényleges promptokat készítik, és a végfelhasználók, akik generatív mesterséges intelligencia alapú alkalmazásokkal dolgoznak.

Magasabb szintű prompting

A korábbi programozási nyelvekhez hasonlóan a prompting is többéves (talán évtizedes) fejlődésen fog keresztülmenni. Ezt már láttuk más programozási nyelveknél is: az Assemblertől a C/C++-on át a C#-ig, a Java-ig. Most a programozási nyelv egyszerűen a természetes nyelv. Az evolúció azt fogja jelenteni, hogy feljebb lépünk a veremben: onnan, ahol a modell van, oda, ahol az alkalmazás van. Ahogy a C++ és a C# gondoskodik helyettünk a memória kiosztásáról és a „szemétgyűjtésről”, úgy a magasabb szintű felszólító módszerek csökkenthetik a kézi feladatok számát, melyekre a modellt kell utasítanunk. Ez nagyszerű lesz a szoftverfejlesztők számára, akik megbízhatóbb alkalmazásokat építhetnek a generatív mesterséges intelligenciára, miközben csökkentik a korlátozások és az alapozás terhét.

A felhasználói élmény felhasználóbarátabbá válik

Ahogy a parancssori utasításoktól a grafikus felhasználói felületen (GUI) át a beszéd és a gesztusok felé tart a fejlődés, úgy a generatív MI-eszközök használata is még egyszerűbbé válik. A generatív MI-alapú alkalmazások burjánzásában már ma is látunk néhány szempontot. Arra azonban számíthatunk, hogy a további utasítások opcionálissá vagy szükségtelenné válnak.

Nem lesz semmilyen prompt menedzselés

Egyszerűen nem lesz rá többé szükség. Az év elején már láttuk az első példákat az autonóm ágensekre (Auto-GPT vagy BabyAGI). Önoptimalizáló, autonóm ágensek, melyek helyettünk cselekednek. Mi határozzuk meg a célt, ők pedig meghatározzák a cél elérésének optimális módját. További adatokkal és a rendelkezésre álló történelmi információkkal drasztikusan csökken a modell vagy az ágens kontextusának biztosításával kapcsolatos erőfeszítés.

Miért érdemes mégis megtanulni a promptolás titkát?

Bármilyen szerepet is fog játszani a prompt engineering a jövőben, az nem oldja meg a mai problémát. Mivel a vállalkozások generatív, mesterséges intelligencia által vezérelt alkalmazásokat kívánnak kifejleszteni, a prompt mérnöki készségek iránt nagy a kereslet (ezért is a 335.000 eurós fizetés). Az utóbbi időben a mesterséges intelligencia és a generatív mesterséges intelligencia terén gyors ütemű fejlődés tapasztalható. Nehéz megjósolni, hogy milyen gyorsan fognak fejlődni a dolgok. Tekintettel arra, hogy a prompt engineering valójában csak 12 hónapja létezik, ez még mindig egy születőben lévő módszer és készség. Ez azt is jelenti, hogy még ha ma kezdjük is el tanulni, akkor is előrébb járunk, mint a munkaerő túlnyomó többsége, akik nem generatív MI-val dolgoznak. Ráadásul a konkrét felszólítások és utasítások kidolgozása a különböző gyártóknál eltérő, és ugyanaz a felszólítás eltérő kimenetet fog generálni. Ennélfogva modellenként vagy gyártónként eltérő felszólítási stratégiák megtanulására is szükség lesz.

A szerepkörétől függően nem kell „mester” prompt-fejlesztőnek lennünk: legalábbis a kezdetek kezdetén nem. Elég jónak lenni benne. Ahogyan nem kell „mester” Google-keresési mesterré válni sem. A promptokkal való kísérletezés, a különböző iterációk tesztelése és az optimális eredmények meghatározása kulcsfontosságú készségek a profi prompt mérnökök számára. Az értékelési keretek és stratégiák kidolgozása pedig kulcsfontosságú a szoftverfejlesztés-központú szerepkörökben. Mindezt figyelembe véve, ezért érdemes még mindig tanulni a prompt engineeringet: mielőtt a jövőben végül elavulttá válik.