Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Beültetett chippel nyerte vissza a hangját egy beszédképtelen ember

MEGOSZTÁS

Négy éve beszédképtelen személy agyi implantátumoknak és gépitanulás-modelleknek köszönhetően „visszanyerte régi énjét”, szintetikus hangján azt hallják a beszélgetés résztvevői, amit mondani akar. A területen még nem fejlesztettek ennyire pontos technológiát.

Több amerikai felsőoktatási intézmény kutatói amitrófiás laterálszklerózisban (ALS) szenvedő férfi agyából érkező beszédjeleket dekódoló rendszert fejlesztettek. Az illető a betegség következményeként vesztette el beszédkészségét, most viszont lehetővé vált számára, hogy régi hangja szintetikus változatán beszéljen. Kezdetben csak a gondozója értette, mit akar mondani, most viszont már rendszeresen beszélget családjával és barátaival.

Az adatgyűjtés nehézségei

A kutatók sebészeti műtét során ültettek az agyának beszédképzésért felelős részébe elektródasort. A rendszer megtanulta megfejteni az agyból érkező jelzéseket, eldönti, melyik a legvalószínűbb fonéma, amelyet ki akar ejteni, meghatározza, milyen szavakat fejeznek ki a fonémák, majd személyre szabott beszédszintetizátort használva, lejátssza a szöveget.

 

 

Így működik a rendszer

 

Az implantációs műtét után felépülve, a kutatók elkezdték a rendszer kiértékeléséhez szükséges gyakorlóadatok gyűjtését. Nyolcvannégy alkalommal vették fel az illető agyi jelzéseit, amikor beszélni szándékozott. A felvételek harminckét hét alatt készültek el, egy-egy összejövetel öt-harminc percig tartott. Mindegyiket két feladatra osztották: a páciens „elmondott” mondatait képernyőn megjelenítő másolásra, valamint beszélgetésre, amikor arról beszélt, amiről csak akart. Eleinte a másolásra összpontosítottak, majd miután az agyi jelzéseket össze tudták társítani értelmes mondatokkal, a beszélgetésre helyezték a hangsúlyt.

Folyamatosan tanul a rendszer

Különleges eszköz tanulta meg a jelek fonémasorozatokká alakítását. A modell minden egyes összejövetel után az ott rögzített összes anyagon gyakorolt. Az agytevékenység napi változásaihoz alkalmazkodva, a későbbi alkalmakra finomhangolták. Újabb mondatok felvételét követően úgy finomítottak rajta, hogy az aktuális és a korábbi összejövetelek felvételei hatvan a negyvenhez arányban viszonyultak egymáshoz.

A fonémákat más gépitanulás-technikákkal és nyelvmodellekkel sikerült mondatokká fordítaniuk. Egy adott mondatnál a rendszer a száz legvalószínűbbet hozta létre. A valószínűeket a kutatók több előre trenírozott nyelvmodell segítségével rangsorolták, majd jött a szöveg beszéddé alakítása. Ezúttal is csak a legvalószínűbbekkel foglalkoztak.

Két óra felvételen történő gyakorlással a másolásban 90,2 százalék pontosságot ért el a rendszer. Aztán az utolsónál már 97,5-öt, és lehetővé vált, hogy a páciens 125 ezer szóból álló szótárt használva percenkénti átlagban 31,6 szót mondjon.

Korábbi kísérletekkel soha nem érték el ezt a szintet: vagy kevésbé voltak pontosak, vagy a szótár lett sokkal kisebb. Az eddigi legjobb eredmény – szintén 125 ezres szótár mellett – 76,2 százalék volt.

 

Képek: Wikimedia Commons, DeepLearning.AI

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!