Ehhez a robothoz képest a Sora mesterséges intelligencia tudása semmi

Kömlődi Ferenc

2024. márc 26.

MEGOSZTÁS

Iparági megoldások Új technológiák Rövid hírek Technológia

nagy nyelvi modell humanoid robot SORA mesterséges intelligencia robot OpenAI nyelvtechnológiák

Vizuális nyelvmodellel, a multimodalitás képességével felvértezett humanoid robot változatos cselekedetekre képes. A mesterséges intelligencia kihozza belőle a legjobbat, a fejlesztés komoly jövővel kecsegtet.

A robotika még a két terület különféle kombinációi ellenére is nehezen vagy egyes esetekben egyáltalán nem képes tartani a tempót a mesterséges intelligencia látványos és gyors fejlődésével. Sokak és a korábbi vélekedés szerint a robotok nem többek, nem kevesebbek megtestesült MI-knél, az MI megtestesülésének változatos formáinál, ám az állítás így nem pontos, és nem is igaz, mert voltak, vannak és lesznek is mesterséges intelligencia nélkül működő robotok.

Két évtizednyi stagnálás

Még emberszerű, azaz két lábon járó, bár azért annyira mégsem Homo sapiens-forma humanoid robotok között is találunk semmiféle vagy igen csekély intelligenciával rendelkező példányokat. A terület mindig a számítástudomány nagy ígéretei közé tartozott, emlékezzünk a Honda Asimojára például.

A humanoid robotika az utóbbi két évtizedben azonban csigalassúsággal fejlődött, alig történt jelentős változás, néhány emlékezetes példánnyal ugyan előrukkoltak, áttörés viszont nem történt. De még ahhoz hasonló sem.

Most azonban a Figure AI és az OpenAI együttműködésének eredményeként, alakul valami. A Figure AI célja általános rendeltetésű humanoid fejlesztése, az OpenAI pedig megadja hozzá a nyelv- és beszédtechnológiai MI-hátteret.

Majdnem C-3PO

A robotikai cég legújabb, demonstrációs videójában a robot utolsó frissítése látható. A rajta futó új vizuális nyelvmodell (Visual Language Model, VLM) érdektelen automatából majdnem a Csillagok háborúja C-3PO képességeivel rendelkező sci-fi bottá alakította át.

A robot egy asztal mögött áll, az asztalon tányér, alma és csésze, balra lefolyó. Férfi áll előtte, és megkérdezi tőle, hogy mit lát. Néhány másodperc múlva “Figure 01″ emberinek érzékelhető hangon részletezi a látványt: az asztalt és a férfit. Arca nincs, a hanggal szinkronban fény animálódik rajta. Utána a férfi arról faggatja, kaphat-e valamit enni. A robot az igenlő válasz után folyamatos és ügyes mozdulatokkal megfogja, majd odaadja neki az almát. A férfi kiürít néhány törmeléket a robottal szembeni szemetesből, és magyarázatot kér arra, hogy miért teszi a gép azt, amit tesz, amikor felveszi a szemetet. Visszapakolva a kukába a szemetet a robot közben az almáról, az asztalon lévő egyetlen ehető dologról beszél.

Az OpenAI előre gyakoroltatott, multimodális VLM-modelljét használva, a robot megérti a képeket és szövegeket egyaránt, és mindeközben teljes hangalapú beszélgetésre támaszkodva képes válaszolni. A VLM másként működik, mint az írott promptokra összpontosító GPT-4. Megtanult alacsony szintű bimanuális manipulációval, a pixelszintig pontos képkalibrációt az ideghálóhoz kapcsolva vezérli a mozgást. A robot összes mozdulata tanulás eredménye, nincs semmi trükk, távirányítás bennük.

(Képek: Figure AI)