Új módszer robotkarok gyakoroltatására

Kömlődi Ferenc

2023. júl 24.

MEGOSZTÁS

gépi tanulás mesterséges intelligencia robotkar Stanford Egyetem robotok megerősítéses tanulás

Stanfordi kutatók megmutatták, hogy finomhangolható robotkart mozgató ágens. A kar sokkal jobban teljesített, eredményesebben nyitott ki ablakot, csukott be ajtót, mintha hagyományosabb tanulást alkalmaztak volna.

(Képek: Wallpaper Flare, Pxfuel, PickPik)

Nagy nyelvmodellek (large language models, LLM) hangolásánál négy lépésben használják az emberi visszajelzéseken alapuló megerősítéses tanulást (RLHF, reinforcement learning from human feedback), a gépi tanulás három alapparadigmájának egyikét (a felügyelt és a felügyeletlen tanulás a másik kettő),

A robotoknál is alkalmazott módszer olyan folyamatok automatizálására, optimalizálására ideális, ahol szinte állandóan döntést, azaz nem egyetlen döntést, hanem döntések sorozatát kell meghozni. A modell egyes döntések helyességére nem, hanem csak a cselekvéssorozat végén kap jutalmat vagy büntetést.

Ajtónyitás szimulációban

Hangolásuk első lépése a generatív modell előzetes gyakoroltatása. A modell általi adatgenerálás, minden egyes kimenet humán pontozása a második, a pontozás (jutalom, büntetés) alapján történő jutalommodell-gyakoroltatás, az emberek pontozási módszerének megtanulása a harmadik. A generatív modell jutalommodellel való felturbózása a negyedik. Röviden összefoglalva: a generatív példát gyárt, a másik pontozza, a generatív tanul a pontozásból.

A Stanford Egyetem kutatói az RLHF egyik változatát használva gyakoroltattak egy ágenst változatos feladatok szimulációban történő végrehajtására. A jutalmazási, büntetési funkciókat viszont nem ember állította be, hanem neurális hálók tanulták meg azokat.

Egy ilyen ágens robotkarokat vezérel különböző tevékenységek végrehajtása során: például, ha ki kell nyitnia az ajtót, mozgássort hajt végre. Hozzáér, megragadja, elfordítja, majd elengedi a kilincset. A stanfordi újítás lényege, hogy az ágenst sok olyan feladatra tanították be előzetesen, amelyekhez rengeteg adat állt rendelkezésre, és így a kapcsolódó feladatok megtanulásához viszont már drasztikusan kevesebb adat kellett.

Adatgazdagság és spórolás az adatokkal

A gépileg előállított adat olcsó, az ember által annotált drága. Ha hasonló mozgássorokat felvonultató feladatok megítélésére építünk mesterséges ideghálót, célszerű, ha nagymennyiségű gépi adaton előzetesen gyakoroltatjuk, majd mindegyik feladathoz kismennyiségű, ember annotálta adatokkal finomhangolunk külön másolatokat.

A stanfordi kutatók ezt tették. Az ágenst előzetesen gépi adatokon tíz szimulált feladatra (ablaknyitásra, fiók bezárására stb.) képezték ki, aztán jött a finomhangolás. 64 emberileg annotált mozgássorozaton „élesítették”, ablaknyitásnál 100, ajtó becsukásánál 95 százalékos teljesítményt ért el stb.

Egy másik megerősítéses tanulás módszert használva, az ágens ugyanazoknál a feladatoknál sokkal rosszabb pontszámokat ért el: tizet és hetvenötöt.

Az RLHF e típusa azért is fontos, mert az OpenAI hasonló módon finomhangolta a ChatGPT-t. Jobb minőség, megbízhatóbb kimenetek az eredmény. A stanfordi kutatók bebizonyították, hogy a technika a robotikára is alkalmazható.

A gépi tanulás folyamatosan növekvő energiaszükséglete miatt pedig bíztató jel, hogy mesterségesintelligencia-rendszerek szignifikáns mértékben kevesebb adaton gyakorolva is képesek sikeresen végrehajtani új feladatokat.