Nagyon nem mindegy, milyen gyakorlóadatokon tanulnak a mesterségesintelligencia-modellek, és a tapasztalataikat mennyiféleképpen tudják hasznosítani. A szintetikus adatok mennyiségnövekedése sajnos nem jár együtt a minőség javulásával. Márpedig a problémát minél előbb orvosolni kell.
Egyre kevesebb a gyakorlóadat
Szinte napról napra nehezebb hozzáférni nem is olyan régen még szabadon és a büntetés kockázata nélkül elérhető adatokhoz. Nő a kiadók és a mesterségesintelligencia-fejlesztők közötti perek száma. Az internet elvileg nyílt, ám mind gyakrabban zárulnak be weblapok kapui a nem kívánatos webes keresőbotok előtt. Célkeresztben az OpenAI.
Engedély nélkül gyakoroltatta modelljeit YouTube videók feliratán az Apple
Lassan mindennapos jelenség, hogy mesterségesintelligencia-fejlesztőkről kiderül, hogy engedély nélkül használtak online talált, jogvédett tartalmakat. Most az Apple és az Nvidia a céltábla, korábban meg az összes többi volt. Ezúttal a YouTube-on gyűjtögettek. Az USA a perek hazája, sok továbbira számíthatunk.
Mennyire pontosak a más modellek adatain gyakoroltatott mesterséges intelligenciák?
A technológia elterjedésével, egyre több a generatív mesterségesintelligencia-modell. Elszaporodásukkal idővel a minőségük is romlik, amely jórészt azzal magyarázható, hogy nem eredeti, hanem sokadik generációs adatokon gyakorolnak.
Minél több a másolt adat, annál elfogultabb a rajta tanuló rendszer?
Minél kisebb egy adatsor, annál jobb minőségűek az adatok, kevesebb bennük az elfogultság. Modellek begyakoroltatásához viszont egyre monumentálisabb adatgyűjtemények kellenek, miközben folyamatosan nő a megkérdőjelezhető adatokon tanult kereskedelmi, nyílt forrású modellek száma.
Neurális hálók optimalizálása új megközelítésben
Hogyan minimalizáljuk a manuális tevékenységet és növeljük egyben a teljesítményt mesterséges ideghálók gyakoroltatása közben? Google-kutatók izgalmas módszert találtak ki rá, de még bőven akad mit finomítani rajta.