A kis nyelvi modellek felemelkedése

Tölgyes László András

2024. ápr 25.

MEGOSZTÁS

Az elmúlt néhány évben a mesterséges intelligencia képességeinek robbanásszerű fejlődését láthattuk, melynek nagy részét a nagy nyelvi modellek (LLM) fejlődése okozta. Az olyan modellek, mint a GPT-3 megmutatták, hogy képesek emberhez hasonló szövegek generálására, kérdések megválaszolására, dokumentumok összegzésére és még sok másra. Miközben azonban az LLM-ek képességei lenyűgözőek, hatalmas méretük a hatékonyság, a költségek és a testreszabhatóság hátrányaihoz vezet. Ez megnyitotta az utat a modellek egy új osztálya, az úgynevezett kis nyelvi modellek (SLM) előtt.

A nyelvi modellek nagy szöveges adathalmazokon képzett MI-rendszerek, melyek olyan képességeket tesznek lehetővé, mint a szöveggenerálás, a dokumentumok összefoglalása, a nyelvek közötti fordítás és a kérdések megválaszolása. A kis nyelvi modellek nagyrészt ugyanazt a rést töltik be, de lényegesen kisebb modellméretekkel.

De mitől lesz kisebb valójában egy Kis Nyelvi Modell? A kutatók jellemzően a 100 millió paraméter alatti nyelvi modelleket tekintik viszonylag kicsinek, egyesek még alacsonyabb küszöbértékeknél, például 10 millió vagy 1 millió paraméternél vágják el a határt. Összehasonlításképpen, a mai mércével mérve hatalmasnak tekintett modellek meghaladják a 100 milliárd paramétert, mint például az OpenAI fent említett GPT-3 modellje.

A kis nyelvi modellek felemelkedése — A nyelvi modellek nagy szöveges adathalmazokon képzett MI-rendszerek, melyek olyan képességeket tesznek lehetővé, mint a szöveggenerálás, a dokumentumok összefoglalása, a nyelvek közötti fordítás és a kérdések megválaszolása. A kis nyelvi modellek nagyrészt ugyanazt a rést töltik be, de lényegesen kisebb modellméretekkel (Fotó: Unsplash+)

A kisebb modellméretek lehetővé teszik, hogy a kis nyelvi modellek hatékonyabbak, gazdaságosabbak és testre szabhatóbbak legyenek, mint legnagyobb társaik. Ugyanakkor alacsonyabb általános képességeket érnek el, mivel a nyelvi modellek modellkapacitása bizonyítottan korrelál a mérettel. Az optimális modellméret meghatározása a valós alkalmazásokhoz a rugalmasság és testre szabhatóság, valamint a puszta modellteljesítmény közötti kompromisszumok között való navigálást jelenti.

A kis nyelvi modellek motivációja

Amint fentebb említettük, a kis méretű nyelvi modellek a hatékonyság, a költségek és a testre szabhatóság terén előnyökkel járnak nagyobb méretű társaikkal szemben. Bontsuk le részletesebben ezeket a motivációkat:

Hatékonyság

Mivel kevesebb paraméterük van, a kis nyelvi modellek több szempontból is jelentősen hatékonyabbak számítási szempontból, mint a GPT-3-hoz hasonló masszív modellek: Gyorsabbak a következtetési sebesség/átviteli teljesítmény tekintetében, mivel kevesebb paramétert kell bemenetenként végrehajtani. A kisebb modellméretnek köszönhetően kevesebb memóriát és tárhelyet igényelnek. Kisebb adathalmazok elegendőek a kis nyelvi modellek képzéséhez. A modellkapacitás növekedésével együtt nő az adatigény is. Ezek a hatékonysági előnyök közvetlenül költségmegtakarításban mutatkoznak meg:

Költségek

A nagyméretű nyelvi modellek képzése és telepítése jelentős számítási erőforrásokat igényel. Becslések szerint a GPT-3 kifejlesztése az OpenAI-nak a hardver- és mérnöki költségeket is figyelembe véve több tízmillió dollárba került. A ma nyilvánosan elérhető nagyméretű nyelvi modellek közül soknak a futtatása erőforrásigényük miatt még nem kifizetődő. Eközben a kis nyelvi modellek könnyen betaníthatók, telepíthetők és futtathatók a sok vállalkozás számára elérhető alaphardvereken anélkül, hogy a „bankot megroppantanák”. A modellek ésszerű erőforrásigénye lehetővé teszi a szélsőséges számítástechnikában való alkalmazást, ahol offline, kisebb teljesítményű eszközökön is futtathatók. Összességében rövid távon nagyobb lehetőség van a kis nyelvi modellek jövedelmező alkalmazásainak megtalálására.

Testre szabhatóság

A kis nyelvi modellek egyik legfontosabb előnye a legnagyobb társaikkal szemben a testre szabhatóság. Bár az olyan modellek, mint a GPT-3, számos feladatban erős sokoldalúságot mutatnak, képességeik még mindig olyan kompromisszumos megoldást jelentenek, mely kiegyensúlyozza a teljesítményt a különböző területeken. A kis nyelvi modellek ezzel szemben könnyedén alkalmazkodnak szűkebb területekhez és speciális alkalmazásokhoz. A gyorsabb iterációs ciklusok révén a kis nyelvi modellek lehetővé teszik a modellek bizonyos típusú adatokra való szabásával való kísérletezést az olyan megközelítéseken keresztül, mint például:

Előképzés: a kis modellek alapozása a szakterület-specifikus adathalmazokon
Finomhangolás: a képzés folytatása a végfeladatokra való optimalizálás érdekében.
Súgóalapú tanulás: a modell súgóinak optimalizálása speciális alkalmazásokhoz.
Architektúra módosítások: a modell szerkezetének adaptálása a speciális feladatokhoz.

Az ilyen jellegű testreszabási folyamatok egyre nehezebbé válnak a nagy modellek esetében. Hozzáférhetőségükkel kombinálva a kis nyelvi modellek olyan kódexet biztosítanak, melyet a fejlesztők saját igényeikhez alakíthatnak.

Mennyire lehetnek hasznosak a kisebb modellek?

A modellméret minimalizálásának fentebb tárgyalt motivációit figyelembe véve természetes kérdésként merül fel, hogy mennyire lehet a nyelvi modelleket úgy „összezsugorítani”, hogy közben megmaradjanak a meggyőző képességek? A legújabb kutatások folytatták a különböző nyelvi feladatok elvégzéséhez szükséges modellméret alsó határainak vizsgálatát.

Számos vizsgálat megállapította, hogy a modern képzési módszerek képesek alapvető nyelvi kompetenciákat közvetíteni a mindössze 1-10 millió paramétert tartalmazó modellekben. Például egy 2023-ban kiadott 8 millió paraméteres modell 59%-os pontosságot ért el a GLUE természetes nyelvi megértési benchmarkon.

A teljesítmény a modellkapacitás növekedésével tovább emelkedik. Egy 2023-as tanulmány megállapította, hogy az érveléstől a fordításig számos területen a különböző feladatokra vonatkozó hasznos képességi küszöbértékek következetesen átlépték a 60 millió paramétert elérő nyelvi modelleket. A 200-300 millió paraméteres skála után azonban a hozamok csökkentek: a további kapacitás hozzáadása csak fokozatos teljesítménynövekedést eredményezett.

Ezek az eredmények azt sugallják, hogy még a közepes méretű nyelvi modellek is elérik az ésszerű kompetenciát számos nyelvfeldolgozási alkalmazásban, feltéve, hogy elegendő mennyiségű megfelelő képzési adatot kapnak.

A teljesítmény ezután elér egy olyan szintre, ahol a számítási és adatmennyiség nagy része látszólag kevés további értéket nyújt. A kereskedelmi forgalomban alkalmazható kis méretű nyelvi modellek számára az ideális pont valószínűleg e szint környékén található, ahol a széles körű képességek és a karcsú hatékonyság egyensúlyban vannak.

Természetesen a széles körű helyett mélyrehatóan hangolt, specializált kis nyelvi modellek sokkal kevesebb kapacitást igényelhetnek ahhoz, hogy a hiánypótló feladatokban kiemelkedő teljesítményt nyújtsanak. A későbbiekben foglalkozunk néhány ilyen alkalmazott felhasználási esettel. De előbb tekintsük át a kompakt, de hatékony kis nyelvi modellek hatékony képzésének népszerű technikáit.

A kis modellek képzései módszerei

Az egyre hatékonyabb kis nyelvi modellek képzésének aktív előrehaladása olyan módszerekre támaszkodik, melyek növelik az adatok hatékonyságát és a modell kihasználását a tanulási folyamat során. Ezek a technikák végül több képességet biztosítanak paraméterenként a nagyobb modellek naiv képzéséhez képest. A következőkben néhány népszerű megközelítést bontunk le:

Transzfer tanulás

A legtöbb modern nyelvi modellképzés a transzfer tanulás valamilyen formáját használja ki, ahol a modellek a képességek „bootstrapelésével” először széles adathalmazokon képeznek, mielőtt egy szűk célterületre specializálódnának. A kezdeti előképzési fázisban a modelleket széles körű nyelvi példáknak teszik ki, melyek hasznosak az általános nyelvi szabályok és minták megtanulásához. A kis nyelvi modellek az előképzés során e széles körű kompetenciák nagy részét megragadhatják, annak ellenére, hogy korlátozott paraméter költségvetéssel rendelkeznek. A specializációs fázisok ezután lehetővé teszik a finomítást konkrét alkalmazások felé anélkül, hogy a modell méretét bővíteni kellene. Összességében a transzfer tanulás nagymértékben javítja az adatok hatékonyságát a kis nyelvi modellek képzésében.

Önfelügyelt tanulás

A transzfer tanulás képzése gyakran használ önfelügyelt célokat, ahol a modellek a bemeneti szöveges szekvenciák elfedett vagy sérült részeinek előrejelzésével fejlesztik az alapvető nyelvi készségeket. Ezek az önfelügyelt előrejelzési feladatok a későbbi alkalmazások előképzéséhez szolgálnak.

A legújabb elemzések szerint az önfelügyelt tanulás különösen hatásosnak tűnik a kis nyelvi modellek erős képességeinek kialakításában: jobban, mint a nagyobb modellek esetében. Azáltal, hogy a nyelvi modellezés interaktív előrejelzési kihívásként jelenik meg, az önfelügyelt tanulás arra kényszeríti a kis modelleket, hogy minden egyes bemutatott adatpélda alapján mélyen általánosítani tudjanak ahelyett, hogy egyszerűen csak passzívan megjegyeznék a statisztikákat. Ez teljesebb modellkapacitást von be a képzés során.

Architektúra-választások

Nem minden neurális hálózati architektúra egyenértékűen paraméter hatékony a nyelvi feladatokhoz. A gondos architektúra-választás a modell kapacitását a nyelvi modellezés szempontjából kritikusnak bizonyult területekre összpontosítja, mint például a figyelemmechanizmusok, miközben a kevésbé lényeges komponenseket eltávolítja. A hatékony transzformátorok például népszerű kis nyelvi modellarchitektúrákká váltak, melyek a hatékonyság növelése érdekében különböző technikákat alkalmaznak, mint például a tudás desztillálása a képzés során. Az alap Transzformátor-modellekhez képest a Hatékony Transzformátor Architektúrák több mint 80%-kal kevesebb paraméterrel ér el hasonló nyelvi teljesítményt. A hatékony architektúrával kapcsolatos döntések felerősítik azt a képességet, melyet a vállalatok a korlátozott méretű kis nyelvi modellekből ki tudnak hozni.

A fenti technikák gyors fejlődést eredményeztek, de továbbra is sok nyitott kérdés van a kis méretű nyelvi modellek leghatékonyabb képzésével kapcsolatban. A modellméret, a hálózatkialakítás és a tanulási megközelítések legjobb kombinációinak azonosítása a projektigények kielégítése érdekében továbbra is foglalkoztatja a kutatókat és a mérnököket, ahogy a kis nyelvi modellek új területeken terjednek el. A következőkben néhány olyan alkalmazott felhasználási esetet emelünk ki, amelyek a kis nyelvi modellek és a testre szabott mesterséges intelligencia bevezetését kezdik meg.

Iparágak, ahol a kis modellek sikeresek

Míg a mesterséges intelligencia körüli izgalmak gyakran a hatalmas modellekre összpontosítanak, melyek a címlapokra kerülnek, számos vállalat máris hasznot látott az egyedi igényeikre szabott kis nyelvi modellek alkalmazásából. Kiemelek néhány reprezentatív példát, például a pénzügyi és szórakoztatóipari területeket, ahol a kompakt, speciális modellek üzleti értéket teremtenek:

Pénzügy

A pénzügyi szervezetek számadatok és dokumentumok tömkelegét generálják, amelyek megérettek arra, hogy kis, testre szabott nyelvi modellekkel nyerjenek meglátásokat. Az erősen megtérülő befektetésekkel rendelkező felhasználási esetek közé tartoznak:

A tranzakcióosztályozók automatikusan kódolják a számla sorait a könyvelési kategóriákkal, hogy felgyorsítsák a könyvelési rendszerekbe való bevitelt.
A hangulati modellek véleményeket vonnak ki az eredménybeszámolók átirataiból, hogy kereskedési jeleket fejlesszenek ki a menedzsment hangnemváltásainak észlelésével.
Egyéni entitások segítenek a strukturálatlan banki kimutatások szabványosított adatokká történő rendszerezésében, amelyek a hitelezési kockázatelemzéshez az üzleti bevételeket jelentik.

Ezek az alkalmazások a nyelvi mesterséges intelligenciát közvetlen folyamatautomatizálássá és jobb analitikává alakítják a bevett pénzügyi munkafolyamatokon belül: felgyorsítva a nyereséges modelleket ahelyett, hogy csak a technológiai ígéretekre spekulálnának. A kockázatkezelés továbbra is elengedhetetlen a pénzügyi szolgáltatásokban, előnyben részesítve a szűken meghatározott nyelvi modelleket az általános intelligenciával szemben.

Szórakozás

A média, a szerencsejátékok és a kapcsolódó szórakoztatóipari vertikális ágazatok a nyelvi mesterséges intelligenciával támogatott megoldások legelőremutatóbb alkalmazói közé tartoznak, mivel a kreatív folyamatok összeolvadnak a fejlett technológiával:

A természetes nyelvi generálást alkalmazva a kis nyelvi modellek automatikusan létrehozzák az animációk első forgatókönyvvázlatait vagy prózai szövegeit, amelyeket az alkotók később finomítanak, exponenciálisan növelve az egyéni termelékenységet.
A nyílt világú játékokban a párbeszédmodellek dinamikus, a felhasználói kontextushoz igazodó beszélgetésfákat hoznak létre: kiterjesztve az interaktív szabadságot a virtuális valóságban.
A hatékonyabb nyelvi elemzés gazdagítja a szórakoztatóipari metaadatokat, például a filmek témáit a feliratok tartalmának mintái alapján azonosítja, így az ajánlómotorok jobban összekapcsolják a nézőket az egyedi érdeklődési körükkel.

A szórakoztatóipar kreatív mozgástere ideális tesztalkalmat biztosít a kis nyelvi modellek generatív határainak feltárásához. Bár a jelenlegi alkalmazások a modell korlátai miatt még mindig felügyeletet igényelnek, a kis nyelvi modellek hatékonysága bőséges teret biztosít a fejlesztőknek a kreatív lehetőségek vizsgálatához.

A fenti alkalmazások csak egy szeletét mutatják be azoknak a felhasználási eseteknek, amelyek a kis nyelvi modelleket a célzott igényekre szabva alkalmazzák. A következő szakaszunk olyan eszközöket kínál, melyek még több ilyen megvalósítást tesznek lehetővé.

Fejlesztői keretrendszerek

Hogyan kezdhetnek tehát a fejlesztők a sok ígéret ellenére ténylegesen hozzá a speciálisan testre szabott kis nyelvi modellek építéséhez? A nyílt forráskódú technológiák elérhető közelségbe hozták a testre szabott nyelvi mesterséges intelligenciát a vállalatok számára a különböző területeken és léptékekben. Az alábbiakban bemutatott teljes körű platformok lehetővé teszik a testre szabott kis nyelvi modellek költséghatékony létrehozását és telepítését:

Hugging Face Hub: A Hugging Face egységes gépi tanulási ops platformot biztosít az adathalmazok hosztolására, a modellképzési pipeline-ok hangszerelésére és a hatékony telepítésre az API-kon vagy alkalmazásokon keresztül történő előrejelzésekhez. Clara Train termékük a legmodernebb önfelügyelt tanulásra specializálódott a kompakt, mégis képes kis nyelvi modellek létrehozásához.
Anthropic Claude: A modellbiztonságra összpontosító ConstitutionalAI készítőitől a Claude lehetővé teszi az egyéni osztályozók, szöveggenerátorok, összegzők és egyéb eszközök egyszerű képzését néhány sornyi kóddal. A beépített biztonsági korlátozások és a felügyelet megfékezi a potenciális kockázatokat a telepítés során.
Cohere for AI: A Cohere fejlesztőbarát platformot kínál a nyelvi modellek építéséhez akár 1 millió paraméterig, saját képzési adatokból vagy importált egyéni halmazokból merítve. Az ügyfél által hosztolt opciók végponttól végpontig tartó adatvédelmi megfelelőséget biztosítanak.
AssemblyAI: Az AssemblyAI eszközöket biztosít a hiányos adatbevitelekre specializált olvasó, író és osztályozó kis nyelvi modellek fejlesztéséhez. Egyszerű webes felületük elrejti a modell létrehozásához és felügyeletéhez szükséges infrastruktúra összetettségét.

A fenti szolgáltatások jól példázzák a nyelvi mesterséges intelligencia lehetőségeinek felfedezésére kész vállalatok számára most már kulcsrakészen megvalósítható élményt. A gépi tanulással kapcsolatos szakértelem önmagában hasznos, de a megfelelő partnerek segítségével már nem merev előfeltétel. Ezáltal egyre több iparág kerül elérhető közelségbe, hogy értéket teremtsen az MI-specializációból.

A területspecifikus SLM-ek megjelenése

Eddig a pontig a kis nyelvi modellek általános képességeivel foglalkoztunk, és azzal, hogy milyen előnyöket biztosítanak a hatékonyság, a testre szabhatóság és a felügyelet terén a masszív, általánosított LLM-ekkel szemben. Az SLM-ek azonban a speciális felhasználási esetekre való összpontosításban is „ragyognak“, mivel speciális adathalmazokon képzik őket.

Ahogy a nagy nyelvi modellek egyre nagyobb méreteket öltenek, úgy válnak minden szakmában kötelezővé, általános tudást ugyan nyújtanak, de egyiknek sem válnak a mestereivé. Tudásuk és teljesítményük felhígul a különböző területeken. Ráadásul az érzékeny adatok külső LLM-eknek való átadása biztonsági, megfelelőségi és tulajdonjogi kockázatokat jelent az adatok kiszivárgása vagy visszaélésszerű felhasználása miatt. Ezek a korlátok arra ösztönzik a szervezeteket az iparágakban, hogy belső adatvagyon felhasználásával saját, kis méretű, szakterület-specifikus nyelvi modelleket fejlesszenek ki. A testreszabás jobban szolgálja sajátos pontossági és biztonsági igényeiket. A következőkben vezető példákat emelünk ki.

Pénzügyi kis nyelvi modellek

A pénzügyi vállalatok is alkalmaznak SLM-eket az eredménykimutatások, az eszközértékelések, a kockázatmodellezés és egyéb szükségletek elemzése körüli igényekre. A tartományi gördülékenység kötelező, ugyanakkor az érzékeny adatok nem szivároghatnak ki külsőleg. A Softbank tulajdonában lévő Fortia például egyedi SLM-et épített az ügyféladatok felhasználásával a devizaárfolyamok és az arbitrázs kereskedési lehetőségek előrejelzésére. A szoros fókusz lehetővé teszi, hogy felülmúlja az általánosított LLM-eket, az alacsony késleltetés pedig lehetővé teszi az automatizálást. Az adatbiztonság is elengedhetetlen volt.

A specializált tartományi SLM előnyei

Mi mozgatja a saját domain-specifikus SLM-ek fejlesztését a szervezetekben és iparágakban? Számos kulcsfontosságú előny emelkedik ki:

Kiemelkedő pontosság: A speciális modellképzés olyan speciális adathalmazokon, amelyek sajátosságait az általános korpuszok egyszerűen nem rögzítik, drámai pontosságnövekedést eredményez a külső LLM-ekkel szemben. A modellek kiegészítése olyan domain-adaptációs technikákkal, mint a súlymegjelölés, az adaptermodulok és az önképzés további javulást eredményez.
Bizalom: Az általánosított külső modellekre támaszkodva kénytelenek érzékeny IP-, pénzügyi, egészségügyi vagy egyéb bizalmas adatokat külső fél számára hozzáférhetővé tenni. A házon belül képzett SLM-ek szigorúan meghatározott architekturális határai azonban csökkentik az adatszivárgás vagy visszaélés kockázatát. Ez a megfelelés előnyeit is biztosítja.
Reagálóképesség: A szervezetek a teljes modellfejlesztési életciklus finomhangolását a speciális felhasználási esetekhez, például az ügyféltámogatási folyamatokhoz való pontos igazodás érdekében magukénak tudhatják. A közvetlen irányítás lehetővé teszi a modellek módosítását és újrafelhasználását órák vagy napok alatt, a külső LLM-szolgáltatókkal való hónapokig tartó koordináció helyett. Az agilitás felgyorsítja az iterációt.
Költséghatékonyság: A nagyméretű nyelvi modellek nem csak magas képzési költségekkel járnak, hanem a hozzáférés lekérdezésenkénti árazásával is, ami összeadódik. A saját modellek készítése hosszú távon amortizálja a kiadásokat. Bár néhány túlságosan nagy adathalmazok még mindig előnyös előre kiképzett LLM alapok átadása tanult speciális fejek.

A specializáció hátránya

A specializált SLM-ek nem szembesülnek az előnyökkel szemben ellensúlyozandó elfogadási akadályokkal:

Az adatok elégséges volta: Sok szervezet nem rendelkezik méretes strukturált adatkészletekkel, hogy robusztus modelleket képezzen a semmiből. Az olyan alternatív megközelítések, mint az alapmodellek tetején lévő néhány lövéses tanulási adapterek segítenek, de néhány adatéhes alkalmazás még mindig profitál a külső általános modellekből. Bár az olyan adathasznosítási technikák, mint a bővítés segítenek.
Modellirányítás: A megbízható teljesítményű SLM-ek kifejlesztése olyan beruházásokat igényel a fejlesztői munkafolyamatokba, a műszerezésbe, a modellüzemeltetésbe és a felügyeletbe, amelyek ma sok csapat képességeit meghaladják. A felelősségteljes, speciális MI még a kis modellek esetében is kormányzási skálázási szakértelmet igényel. A fejlődés a DevOps érettségén múlik.
Karbantartási költségek: Még a kompakt modellek is karbantartást igényelnek, mivel az adatok sodródnak. A felügyeleti terhek és az újjáépítési követelmények azonban sokkal könnyebbek az SLM-ek esetében, mint az LLM-ek esetében. Mégis, a feláldozhatóként kezelt modellek idővel alááshatják a megbízhatóságot. Az életciklus-menedzsment iránti elkötelezettség kulcsfontosságú.

Jövőbeli lehetőségek és kihívások

A hatékonyság, a sokoldalúság és a hozzáférhetőség, melyet a kis nyelvi modellek bevezetnek, csak a kezdetét jelenti az ipari mesterséges intelligencia bevezetésének új hullámának, amely az egyméretű megoldások helyett a vertikális igényekhez igazodik. Az innovációnak még hatalmas mozgástere van, ahogy a fejlesztők felfogják, hogy ezek az új, testre szabható kódbázisok milyen lehetőségeket rejtenek magukban.

A nyelvi modellek eredendő szociotechnikai összetettsége miatt azonban még kis léptékben is kritikus fontosságú lesz a felelősségteljes végrehajtással kapcsolatos gyakorlat és gondosság. Végezetül röviden kiemeljük az ígéretes lehetőségeket és a legfontosabb kihívásokat:

Lehetőségek

A testreszabás lehetővé teszi az általános mesterséges intelligencia által alul szolgáltatott iparágak speciális hiányosságainak megcélzását, ahol a nyelvi segítségnyújtás növelheti az eredményeket.
A közeljövőben valószínűleg az emberi szakértővel kombinált hibrid intelligencia kombinációi bizonyulnak majd a legkonstruktívabbnak, az MI-t úgy tervezve, hogy az inkább javítsa, mintsem helyettesítse a munkahelyeket.
A hatékony képzési technikák és a többfeladatos modellarchitektúrák terén elért folyamatos fejlődés tovább fogja bővíteni a kis nyelvi modellek képességeit.
A személyre szabott nyelvi mesterséges intelligencia elfogadási lendülete meghaladhatja az általános elfogadást, mivel a célzottabb kereskedelmi hozamok hamarabb válnak kézzelfoghatóvá az egyes vertikális területeken.

Kihívások

Az érzékeny felhasználási esetekben a mesterséges intelligenciára való nem megfelelő támaszkodás azzal a kockázattal jár, hogy a társadalmi szempontból megalapozott döntésekhez szükséges emberi szakértelem és felügyelet kiesik.
Az adatminőség és a fogalmi eltérés problémái gyorsan súlyosbodnak, amikor az alkalmazott modellek a speciális képzési eloszlásukon túlmutató, nem támogatott következtetéseket vonnak le.
Az átláthatóság egyre nehezebbé válik, mivel a kis modellek megsokszorozódása elhomályosítja, hogy miért készültek bizonyos kimenetek, különösen akkor, ha iparági adatok szerint személyre szabottan kerülnek meghatározásra.
A rosszindulatú kihasználás továbbra is aggodalomra ad okot minden terjedő technológiával kapcsolatban, így a nyelvi modellek közvetlen vagy közvetett károkozásával szemben biztosítékokat kell előírni. A felelős fejlesztési elvekre való odafigyeléssel a kis nyelvi modellek az elkövetkező években számos iparágat képesek lesznek jobbá tenni. Még csak most kezdjük megpillantani a lehetőségeket, ahogy a specializált mesterséges intelligencia elérhető közelségbe kerül.

A kis nyelvi modellek tapasztalati technológiája a nyelvi mesterséges intelligencia körüli széles körű izgalmat gyakorlati építőelemekké alakítja, melyek a kereskedelmi csapatok és a felhasználók kezébe adhatók. A még mindig gyerekcipőben járó iparág, az új alkalmazások felszabadítása a fejlesztői kreativitást és a hatások átgondoltságát egyaránt hasznosítja a speciális modellek elterjedésével. A most megjelenő, testre szabható nyelvi intelligencia azonban úgy tűnik, hogy a mesterséges intelligencia termelékenységének következő szakaszát fogja elősegíteni.