Nyitókép: MIT News, iStock
Az úgynevezett anyagkiválasztás az egy adott képen látható, egyforma anyagból készült tárgyak gépi azonosítása. Nem könnyű, sőt, alkalmanként kifejezetten problémás feladat egy programnak, mert az anyagok nagyon különbözőképpen nézhetnek ki. Formájuk és megvilágításuk szintén drasztikusan eltérhet, ami jelentősen megnehezíti az azonosítást.
A jelenlegi módszerek akadoznak az ugyanazt az anyagot megjelenítő pixelek pontos azonosításában. Az egyik teljes tárgyakra összpontosít, holott egy-egy tárgy különféle anyagokból is állhat. Egy asztal lábai lehetnek fából vagy vasból, míg a felülete akár márványból vagy fával keretezett szövetből is. A példák tetszés szerint, de mindenképpen hosszasan sorolhatók.
Más módszerek előre meghatározott anyagsorral dolgoznak, csakhogy a címkék elnagyoltak, mert, mondjuk a „fém” sokfajta fém- és vegyülettípusra vonatkozik, így az azonosítás is pontatlan.
Kijelöljük a pixelt, és a modell megmondja, milyen tárgyak vannak még abból az anyagból
A Massachusetts Institute of Technology (MIT) és az Adobe kutatói komoly lépést tettek a probléma orvoslása felé vezető úton. Technikájukkal a képen látható adott anyagot megjelenítő valamennyi pixel azonosítható. A módszer a felhasználó által kiválasztott pixelből kiindulva mutatja be, hogy például a képen szereplő szekrény és két asztal közül a szekrény és az egyik asztalláb fából készült.
Az eljárás változatos formájú és méretű tárgyak esetében is működik. Nem meglepő módon gépitanulás-modell áll mögötte, amelyet még a világításbeli eltérések sem tévesztenek meg, pedig a fényváltozás miatt ugyanaz az anyag többféleképpen jelenítődik meg.
A módszer változó formájú és méretű tárgyak, változó fényviszonyok között is működik (Kép: MIT)
A modellt csak számítógéppel, 3D jelenetek módosításával generált, sok és változatos képeket tartalmazó, szintetikus adatokon gyakoroltatták. Általa korábban nem látott belsős és külsős jelenetek esetében is működik. A kutatók belsős jelenteket tartalmazó adatsora ötvenezer képből áll, a tárgyak több mint tizenhatezer anyaghoz társíthatók.
A megközelítés mozgóképekre is alkalmazható. Az első képkocka egyik pixelének kijelölése után, a modell a teljes videóban azonosítja az ugyanabból az anyagból álló tárgyakat.
Alkalmazási lehetőségek
A fejlesztés a képszerkesztésben, robotikában, képeken anyagok paramétereit vizsgáló számítógépes, anyagalapú webes ajánlórendszerekben alkalmazható. Például akkor is hasznos, ha mondjuk, rozsdamentes acéledényeket keresünk egy márkától.
A tesztek során kiderült, hogy az MIT-s módszer jobb a többinél, a modell 92 százalék pontosságot ért el.
„Gyakran fontos, hogy milyen anyaggal vagyunk interakcióban. Két anyag hasonlóan nézhet ki, pedig különböző tulajdonságokkal rendelkeznek. Módszerünkkel a kép összes többi olyan pixelt könnyebb kiválasztani, amelyeken ugyanabból az anyagból álló tárgyak szerepelnek” – magyarázza Prafull Sharma, a technikát ismertető tanulmány elsőszámú szerzője, majd kiemelte: a jövőben a finomabb részletek jobb azonosításával igyekeznek javítani a modellen.