Az érvelés, következtetés megtanulása tények és nézőpontok megismerésének fontos része. Általában a leghatékonyabb stratégiát alkalmazva tanított modell eredményezi a legjobb kimenetet.
Gépi tanulásnál a felhasználónak nem kell megmondania, hogy a modell milyen stratégiát alkalmazzon. Egyszerűen beír egy promptot (szöveges utasítást), az MI pedig kitalálja, hogyan indokolja meg a választ.
Hogyan jut el idáig az MI?
Egy viszonylag kicsi „nagy” nyelvmodell (Large Language Model, LLM) – azaz egy diák –, a nagyobb tanár modelljét utánozva, képes majdnem ugyanolyan jól teljesíteni, mint a tanár.
De miért fontos ez egy mesterséges intelligenciánál? Azért, mert jóval kevesebb számítás, tehát jóval kevesebb energiafelhasználás kell hozzá. Sőt, még ennél is jobb teljesítményt ér el, ha nemcsak utánozza a tanárt, hanem a tanár tanítja a diákot.
Stratégiák, stratégiák
Microsoft-kutatók Orca 2 technológiája pont ezt kínálja: nagyságrenddel javítja a diák-LLM teljesítményét, ha tanár-LLM oktatja őket.
LLM-ek outputjai jobbak, ha egy adott érvelési stratégia követésére kapnak utasításokat – ronda magyarsággal: arra promptolják őket –, például próbáljanak lépésről lépésre gondolkodni, idézzenek fel, generáljanak valamit, vagy magyarázzanak el, aztán generáljanak valamit.
Stratégiaválasztás?
A megoldandó feladattól függően, különböző érvelési stratégiák jobb outputot eredményezhetnek. De ha a feladat ugyanaz, különböző stratégiákat választva, akkor is eldől, hogy melyik a legcélravezetőbb.
Mi következik mindebből? Az, hogy tanár-diák viszonylatban szintén előfordulhat, hogy a tanár- és a diákmodellnek más-más stratégiát kell alkalmaznia a legjobb teljesítmény eléréséhez. A tanuló ezt akkor valósítja meg – ha utánozza a tanárt –, amikor a tanár nem a saját legjobb, hanem a tanuló legjobb stratégiáját alkalmazza.
Kicsi a bors, de erős
A kutatók a tanárt (GPT-4) és a diákot (Llama 2) egyaránt előre gyakoroltatták. A tanár a diákot a kimenetét javító finomhangolt adatkészlet generálásában segítette a diákot. Az eredményeket hasonló és nagyobb méretű más modellekével hasonlították össze, értékelték.
A helyes válaszok arányát hat érvelési viszonyítási alapon (benchmark) átlagolták: feleletválasztós és megválaszolandó kérdéseken, és más, emberek számára készült teszteken. 66,92 százalékot ért el.
Az azonos méretű modell 50,32 százalékot, tehát Llama 2 sokkal jobban teljesített nála. Majdnem ugyanolyan jó volt, mint a tízszer nagyobb GPT-3.5 Turbo; utóbbi 67,65 százalékot ért el. A még nagyobb GPT 4-gyel szemben viszont jócskán alulmaradt (79,03 százalék).
Képek: European Molecular Biology Laboratory, DeepLearning.AI