Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Mesterséges intelligencia tanulja a siketnéma jelbeszédet

MEGOSZTÁS

Siketnémák és halláskárosultak komoly akadályokba ütköznek a súlyos hallásproblémákkal nem küszködők által rutinszerűen kezelt infokommunikációs eszközök használatakor. Katalán kutatók számukra fejlesztenek ígéretes technológiát.

Nyitókép: Wikiwand

 

Okostelefonjaink hangfelismerő intelligens asszisztensei, például a Siri, vagy az Amazon Alexája nem segítik a halláskárosultak és siketek hatékony kommunikációját, sőt, komoly akadályt jelenthetnek számukra. A világ több más felsőoktatási intézményéhez és kutatólaboratóriumához hasonlóan, a Katalán Műszaki Egyetem (UPC) és a Barcelonai Szuperszámítógépes Központ (BSC) kutatói – közösen – gőzerővel dolgoznak a probléma megoldásán.

Mesterségesintelligencia-technikával fejlesztenek a siketnéma jelnyelvet szöveggé alakító eszközt, amellyel jelentősen megkönnyíthetik az érintettek mindennapjait, interakcióikat infokom technológiákkal, általában beszélt nyelvekre kitalált digitális szolgáltatásokhoz való hozzáférésüket. Olyan technológiákhoz és szolgáltatásokhoz, amelyeket hallásproblémákkal nem küszködő személyek folyamatosan használnak.

 

A jelbeszéd fordításának nehézségei

A feladat egyáltalán nem könnyű, mert a jelnyelv lefordításához pontosan érzékelni és érteni kell az azt használó személy, avatár stb. elhelyezkedését, testtartását, máskülönben nem készíthető precíz szöveges átirat.

A ChatGPT mögöttihez hasonló, transzformer jellegű gépitanulás-modellt használnak. Ezek a modellek két szempontból különösen hasznosak: egyrészt jól kezelik a kontextust (hátteret, szöveg- és más környezetet), másrészt gyorsan megy nekik a gyakorlópéldákkal való tanulás, és így adott idő alatt több gyakorlóadatot képesek használni.

 

A referencia és a mesterséges intelligencia előrejelzése (Kép: How2Sign/Barcelona Supercomputing Center)

 

A katalán kutatók az Amerikai Jelnyelv európai átírásokkal bővített, nyilvánosan hozzáférhető nyolcvanórás videoanyagával, többek között használati útmutatásokat, ételrecepteket, barkácsolási tanácsokat stb. tartalmazó How25Sign-nal, egy remek adatsorral dolgoztak. Új eszközük korábbi munkájuk folytatása, videó és szöveg összekapcsolására és persze állandó tanulásra alkalmas, nyílt forráskódú szoftver.

 

Bíztató eredmények, de bőven van még dolgoznivalójuk a szoftveren

Állóképek, elszigetelt jelek, jelrészletek helyett kulcsfontosságú volt folyamatos jelbeszédet bemutató videók használata. A jelnyelv összetettsége és változatossága komoly kihívást jelentett. A nehézséget a „beszélő” háttere, a környezet és megjelenése is növelte. A tér- és időbeli információkat 3D szűrővel működő, szintén mesterségesintelligencia-alapú videokivonatolási módszerrel, közvetlenül nyerték ki az anyagokból.

Megállapították, hogy szövegek előzetes feldolgozásával jelentősen javult a jelről szövegre történő „fordítás” minősége. Nyers szöveg előfeldolgozásához az egész anyagot kisbetűssé alakították, hogy egyszerűsítsenek valamit a bonyolult szókészleten, egy kicsit könnyebbé tegyék a feldolgozómunkát.

A kutatók eredményként értelmesen fordító, de nem tökéletes modellt kaptak. Értékelésük alapján ígéretes, de bőven van rajta finomítanivaló. Kísérleti szakaszról beszélnek.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

PODCAST

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!