Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Úgy lát a Google robotagya, mint ahogy a ChatGPT jobb napjaiban írja a szövegeket

MEGOSZTÁS

A már-már követhetetlen tempójú mesterségesintelligencia-versenyfutás legújabb fontos lépése a Google vizuális-nyelvi modelljét karral felszerelt robotrendszerként hasznosító technológiája. A rendszer nem felejt, amivel közelebb kerültünk az általános mesterséges intelligenciához.

Kiemelt kép: Wikimedia Commons

 

A gépi tanulás, pontosabban legfejlettebb ága, a mélytanulás (deep learning) révén kutatócsoportok világszerte érnek el egyre figyelemreméltóbb eredményeket. Az OpenAI mára legendává vált, a vállalat nagy nyelvmodelljén alapuló ChatGPT a leglátványosabb példa, de közben a Google műhelyeiben sem tétlenkednek.

A Google és a Berlini Műszaki Egyetem március elején bemutatta a gépi látás és a nyelvtechnológiát robotirányításhoz integráló, 562 milliárd paraméteres vizuális-nyelvi modell (visual-language model, VLM) PaLM-E rendszert. Állításuk szerint PaLM-E az eddigi legnagyobb VLM, de ami még fontosabb: változatos feladatokat újragyakoroltatás nélkül abszolvál.

 

Hozz ide egy zacskó sós mogyorót!

Ha magasszintű utasítást kap, például „hozz nekem egy zacskó sós mogyorót az íróasztal-fiókból”, a karral rendelkező mobilrobot-platformnak akciótervet generál, majd saját maga el is végzi a feladatot. (A kar a Google Robotics fejlesztése.)

A robot kamerájából jövő adatokat előre feldolgozott jelenet-megjelenítés nélkül elemzi, ez pedig szükségtelenné teszi, hogy ember előzetesen dolgozzon az adatokkal, annotálja azokat. Autonómabb a robotirányítás, a gép jobban ellenáll, reagál környezetére. PaLM-E korábban emberi segítséget igénylő feladatok végrehajtásakor is önállóan vezérli a gépet.

 

Nagy nyelvmodell robotot irányít – ahogy az MI látja (Kép: Kömlődi Ferenc / Stable Diffusion)

„Kiöntöttem az üdítőmet, tudnál hozni valamit, amivel felmoshatom a padlót?” – mondta a robotnak a Google egyik kutatója. A gépnek akciósorozatot kellett megterveznie: szivacsot találni, megfogni, odavinni az illetőhöz, letenni. PaLM-E beágyazott, megtestesített formája (a robot) három feladatcsoportot teljesített hozzá: megvalósíthatósági előrejelzést, hibafelismerést, hosszútávú tervezést (utóbbit nyilván ne emberi léptékkel mérjük).

A rendszer neve a Google nagy nyelvmodelljére (large language model, LLM), a ChatGPT-hez hasonló PaLM technológiára utal. A testetlen rendszert szenzorikus megoldásokkal és robotvezérléssel testesítették meg. Folyamatos megfigyelést végez: a képeket és érzékelő-adatokat ugyanúgy figyeli, mint a nyelvet, és a nyelvi tokenekkel azonos méretű vektor-sorokká alakítja azokat. Így értheti meg ugyanúgy a vizuális, szenzorikus információkat, mint ahogy feldolgozza a nyelvet.

 

PalM-E nem felejt

A robotikus transzformer mellett vizuális feladatokon edződött látás-transzformer tapasztalatait is hasznosítja. Ért a képosztályozáshoz, objektum-detektáláshoz, szemantikai szegmentáláshoz, képrészletek kiemeléséhez.

A Google kutatói különös dologra lettek figyelmesek PaLM-E esetében – úgy tűnik valamilyen szinten megvalósul a tudástranszfer. Azaz, egy feladat teljesítése közben szerzett, megtanult ismereteit, képességeit más feladatoknál is tudja hasznosítani. Ha ez tendenciává válik, idővel eltűnhet az általános mesterséges intelligencia fejlesztésének egyik nagy akadálya, a katasztrofális felejtés. PaLM-E robotja már most egyértelműen jobban teljesít a csak egy feladatra begyakoroltatott robotoknál (tehát az összes többi jelenlegi robotnál).

 

Robotkar irányítása (Kömlődi Ferenc / Stable Diffusion)

 

Ide kapcsolódik, hogy szintén megfigyelték: minél nagyobb a nyelvmodell, nyelvi képességeit annál jobban, majdnem teljes egészükben megtartja vizuális-nyelvi és robotikai feladatok gyakorlása közben.

Harmadik észrevétel, hogy PaLM-E-ben emergens módon kialakul a multimodális gondolatlánc jellegű „gondolkodás”, így képes nyelvi és vizuális információkat egyaránt tartalmazó inputok elemzésére, több képből következtetni. Pedig csak egyképes szöveges utasításokon gyakorolt.

Az egyre komplexebbé váló modellt valóvilágbeli forgatókönyvekben, például otthonok automatizálásában, vagy iparirobotika-környezetben is tervezik tesztelni.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!