Még nem egy Messi, de már elsajátította a futball fortélyait a humanoid

Kömlődi Ferenc

2024. ápr 11.

MEGOSZTÁS

ágens megerősítéses tanulás Oxford Egyetem Google gépi tanulás robot szimuláció humanoid robotfoci

Kétlábú, humanoid robot sajátította el a labdarúgás fortélyait. Persze még nem Lionel Messi, viszont biztosan megáll a lábán. Az ágens szimulációban gyakorolt, tudományát csak alapos tréninget követően alkalmazták valódi robotra.

Humanoid robotok vezérlése komoly kihívás, sokkal nehezebb feladat, mint a négylábúaké. Két lábon állva nem annyira stabilak, és már egy olyan mozgásfajta mint például az ugrás betanításához hosszú előtanulmányok, kutatások szükségesek.

A Google és az Oxford Egyetem kutatói komplex mozgásokat igyekeztek megtanítani egy humanoidnak. Hagyományos módszereket hoztak közös nevezőre: zajos szimulációban trenírozták, saját magával játszott, tanító ágenseket használtak hozzá, egyes cselekvéseket jutalmazva, másokat büntetve.

A robotika egyik leglátványosabb és legszórakoztatóbb alkalmazási területén, a robotfociban kísérleteztek. Konklúziójuk: a megerősítéses tanulásnak köszönhetően, humanoid robotok a valóságban is képesek focizni. Persze eddig is tudtuk, mert évtizedek óta rendeznek bajnokságokat, de a jelenlegi kutatás komoly lépés a még látványosabb és kevésbé megmosolyogtató robotfoci, valamint általánosságban a kétlábú gépek pontosabb, gyorsabb, hitelesebb mozgása, helyváltoztatása felé.

Nincsenek fizikai károk

A kutatók szimulált környezetben ágenst tanítottak meg az egy-az-egy elleni focira. Az ágens tudományát félméteres hardverre, megfelelő méretű focipályán alkalmazták később.

Változatos mozgásokat felfedezve, megerősítéses tanulással nő egy ágens repertoárja. A felfedezés azonban a drága hardver, ezúttal a 14 ezer dolláros Robotis OP3 humanoid megrongálásával is járhat. Szimulációban viszont a tényleges robot veszélyeztetése nélkül bármivel lehet kísérletezni. Mihelyst elsajátította mindazt, amire szüksége volt, megtörténhet a szimulációról valóságra váltás.

Virtuális környezetben tanulta meg vezérelni a robot mozgását. A szimulált robot állapotát (pozícióját, gyorsságát, húsz ízületének felgyorsulását), a játék jelenállapotát (a labda és az ellenfél térbeli pozícióját, gyorsaságát), az utolsó öt időpont játékállapotát, valamint az ágens öt megelőző cselekvését adták meg a kutatók.

Edzés és az eredmények

A megerősítéses tanulásos tréning két lépésben történt.

Az elsőben két tanár – két neurális hálózat – tanult: az első a nem gyakoroltatott ellenféllel szembeni gólszerzésben segítő mozgások előrejelzését sajátította el. A gólszerzésért jutalmazták, az elesésért büntették a tanárt. A másik tanár kitanulta, hogyan állítsa fel az elesett robotot.

A második részben újabb ágens vett részt, saját korábbi változata ellen játszott, mindketten szimulált robotot vezéreltek. A korábban megtanultak helyes alkalmazásáért jutalom, a helytelenért büntetés járt. A feltételek minél jobban hasonlítottak a valósághoz, a kutatók annál több zajt és korlátozást vittek a szimulációba. Például a mozgást úgy alakították ki, hogy semmilyen kárt ne okozzon a valódi robotnak.

Végül a begyakoroltatott ágens fizikai környezetben vezérelte a humanoidot. Nemcsak rúgni és fordulni tanult meg, hanem a labda mozgását is képes volt előrejelezni, illetve blokkolta az ellenfél lövését. A tizenegyeseket alkalmi kapus ellen a szimulációban 90, a valóságban 70 százalékban értékesítette. 0,9 másodperc alatt felállt, míg egy manuálisan tervezett ágensnek 2,5 másodpercre volt szüksége ugyanehhez. Maximális sebessége 0,69 m/s, a „manuális” ágensé 0,27 m/s volt. Egyetlen paraméterben teljesített gyengébben a labdát 2 m/s tempóban rúgta, míg a másik 2,1 m/s teljesítményt ért el.

(Képek: GoodFon, DeepLearning.AI, Wikimedia)