Mesterségesintelligencia-szemüveg vakoknak és gyengén látóknak

Kömlődi Ferenc

2024. jan 26.

MEGOSZTÁS

Iparági megoldások Új technológiák Rövid hírek Egészségügy

mesterséges intelligencia nagy nyelvmodellek gépi látás adatvezérelt egészségügy Google Glass

A nagy nyelvmodellek egyik fontos egészségügyi alkalmazásaként, vakoknak és gyengénlátóknak segítenek a tájékozódásban, az információhoz való hozzáférésben, függetlenségük visszanyerésében.

Képek: Flickr

A mesterséges intelligencia 2023-as fejlődése – „diadalmenete” –, különösen a nyelvfeldolgozás és a gépi látás kombinációja új és izgalmas alkalmazásokat eredményezett, például az egészségügyben, vakok és gyengén látók számára (is). Az egyik egy speciális szemüveg, amely okostelefonos MI-alkalmazásokkal lényegesen többet nyújt szimpla tárgyfelismerésnél – részletesen leírja a vizuális információkat.

Hogyan működik?

Egy, negyvenhárom éves kanadai bétatesztelő komoly látási problémákkal küszködik, lényegében csak körvonalakat lát, és a változásokat is nehezen észleli. Ezért az internetre kapcsolódó szemüveget hord, míg a szemüveg egy nagy nyelvmodellhez (LLM) kapcsolódik. Maga a hardver az első változatban egy évtizeddel ezelőtt debütált és csúfosan megbukott Google Glass, az egészet pedig a holland Envision vállalat rakta össze.

Amikor az illető hangutasítást ad, például, hogy „írd le a jelenetet”, a szemüvegbe ágyazott kamera készít egy képet. A kép MI-modellhez kerül, az értelmezi a jelenetet, leírást csinál róla, majd a szöveget beszéddé (text-to-speech) alakító alrendszer a fül mögötti apró mikrofonba olvassa a leírást. Az egész folyamat mindössze néhány másodpercig tart.

Az eszköz nélkülözhetetlenné vált a tesztalany számára. Vele ébred, vele kávézik, vele szedi össze a kulcsokat, tárcáját, vele távozik otthonról, szóval mindig vele van.

Még nem tökéletes

Akárcsak a ChatGPT, még ez a technológia sem tökéletes. A chatbotokról köztudott, hogy kitalálnak dolgokat, történeteket, „hallucinálnak.” Az app is néha olyan tárgyakat lát valahol, amelyek persze nincsenek ott, vagy egyszerűen félreértelmezi a világot. Ugyanakkor az MI fejlődésével sokaknak segít a környezet megértésében, korábban részben vagy teljesen elveszített függetlenségük visszaszerzésében.

A szemüveg többféleképpen használható asszisztens technológia. Ha a felhasználó megkérdezi ruhája színét, elmondja neki. Ha közterületen keres üres széket, odavezeti. Ha kell, elmagyarázza, mit tegyen egy csomag fagyasztott pizzával. Vele olvassa a jelzőtáblákat, segíti a közlekedésben. Évekkel korábban elveszített komfortszintet biztosít neki.

Ha a felhasználó nem talál valamit, megkérdezi a szemüvegtől, látótávolságon belül van-e az adott tárgy. A kanadai tesztelő például vezetőkutyáját, az Elm névre hallgató labradori retrievert kereste. A válasz és a kutya is megérkezett.

A GPT-4 mindent megváltoztatott

A 2017-ben alapított Envision vezetője, az indiai Karthik Mahadevan elmondta, hogy sok vakkal és gyengénlátóval beszélt, és kiderült: legtöbbjük számára a függetlenség az információhoz való hozzáférést jelenti. Ezt szem előtt tartva, a technológia különböző iterációkon ment keresztül. Részben OpenAI modelleken alapult, a szemüvegnek pedig egy ideig képesnek kellett lennie szövegek interpretálására.

A GPT-4 viszont már képleírásra is alkalmas, amely óriási változást hozott: az Envision a felhasználó környezetét elmagyarázó funkcióval bővítette a rendszert. A cég nyílt forrású MI-modellt is tesztel, de egyelőre úgy tűnik, hogy a GPT-4 jobban kezeli a kérdéseket, és egyre kevesebbszer hallucinál.

A szemüveg sajnos nem olcsó, funkciói függvényében két- és négyezer dollár között szerezhető be.