Nyitókép: Wikiwand
Okostelefonjaink hangfelismerő intelligens asszisztensei, például a Siri, vagy az Amazon Alexája nem segítik a halláskárosultak és siketek hatékony kommunikációját, sőt, komoly akadályt jelenthetnek számukra. A világ több más felsőoktatási intézményéhez és kutatólaboratóriumához hasonlóan, a Katalán Műszaki Egyetem (UPC) és a Barcelonai Szuperszámítógépes Központ (BSC) kutatói – közösen – gőzerővel dolgoznak a probléma megoldásán.
Mesterségesintelligencia-technikával fejlesztenek a siketnéma jelnyelvet szöveggé alakító eszközt, amellyel jelentősen megkönnyíthetik az érintettek mindennapjait, interakcióikat infokom technológiákkal, általában beszélt nyelvekre kitalált digitális szolgáltatásokhoz való hozzáférésüket. Olyan technológiákhoz és szolgáltatásokhoz, amelyeket hallásproblémákkal nem küszködő személyek folyamatosan használnak.
A jelbeszéd fordításának nehézségei
A feladat egyáltalán nem könnyű, mert a jelnyelv lefordításához pontosan érzékelni és érteni kell az azt használó személy, avatár stb. elhelyezkedését, testtartását, máskülönben nem készíthető precíz szöveges átirat.
A ChatGPT mögöttihez hasonló, transzformer jellegű gépitanulás-modellt használnak. Ezek a modellek két szempontból különösen hasznosak: egyrészt jól kezelik a kontextust (hátteret, szöveg- és más környezetet), másrészt gyorsan megy nekik a gyakorlópéldákkal való tanulás, és így adott idő alatt több gyakorlóadatot képesek használni.
A referencia és a mesterséges intelligencia előrejelzése (Kép: How2Sign/Barcelona Supercomputing Center)
A katalán kutatók az Amerikai Jelnyelv európai átírásokkal bővített, nyilvánosan hozzáférhető nyolcvanórás videoanyagával, többek között használati útmutatásokat, ételrecepteket, barkácsolási tanácsokat stb. tartalmazó How25Sign-nal, egy remek adatsorral dolgoztak. Új eszközük korábbi munkájuk folytatása, videó és szöveg összekapcsolására és persze állandó tanulásra alkalmas, nyílt forráskódú szoftver.
Bíztató eredmények, de bőven van még dolgoznivalójuk a szoftveren
Állóképek, elszigetelt jelek, jelrészletek helyett kulcsfontosságú volt folyamatos jelbeszédet bemutató videók használata. A jelnyelv összetettsége és változatossága komoly kihívást jelentett. A nehézséget a „beszélő” háttere, a környezet és megjelenése is növelte. A tér- és időbeli információkat 3D szűrővel működő, szintén mesterségesintelligencia-alapú videokivonatolási módszerrel, közvetlenül nyerték ki az anyagokból.
Megállapították, hogy szövegek előzetes feldolgozásával jelentősen javult a jelről szövegre történő „fordítás” minősége. Nyers szöveg előfeldolgozásához az egész anyagot kisbetűssé alakították, hogy egyszerűsítsenek valamit a bonyolult szókészleten, egy kicsit könnyebbé tegyék a feldolgozómunkát.
A kutatók eredményként értelmesen fordító, de nem tökéletes modellt kaptak. Értékelésük alapján ígéretes, de bőven van rajta finomítanivaló. Kísérleti szakaszról beszélnek.