Nemzetközi kutatócsoport nagy nyelvmodelleket (LLM) mesterségesintelligencia-kutatási ötletekre ösztönző, azokat tesztelő kódokat generáló, a teszteket dokumentáló ágens munkafolyamatot, egy terjedő technológiát dolgozott ki. A rendszer neve MI-tudós (AI Scientist).
Több LLM-et használva, a modellek három kategóriában generáltak tanulmányokat: diffúziós képmodellezésben, transzformer-alapú nyelvmodellezésben, a tanulás mély neurális hálókban történő általánosításában, felgyorsításában.
Így működik az MI-tudós
Az adott modellnek promptot adtak meg, hogy hozza létre a következő kreatív és hatásos kutatási ötletet valamelyik kategóriában. Ezt követően alkalmazásprogramozói interfészt (API) szolgáltattak neki, hogy keressen tanulmányokat, és állapítsa meg, új-e az ötlet, vagy, amennyiben nem tudta megválaszolni, akkor generáljon keresést a releváns válaszokhoz. Addig csinálták, amíg az LLM döntést nem hozott. (Az első esetben az ötlet bekerült a következő körbe.)
Így működik az MI Tudós
Ha volt tényleg új ötlet, az LLM-nek kísérletlistát kellett létrehoznia, majd az Aider Python könyvtárral lefuttatni a kísérleteket. Újabb promptok hatására az eredményeket kellett pontoznia, majd szakaszról szakaszra tanulmányt írnia, jegyzetekkel, ábrákkal, illetve tippeket adnia, hogy meglévő útmutató alapján miként készíthető tanulmány.
Ezt követően kapcsolódó anyagok és hivatkozások után kellett kutakodnia. Végül a felesleges és ismétlődő részek eltávolításával, a bőbeszédűség felszámolásával és a dokumentumformátum véglegesítésével bízták meg.
Mindezt folyamatos és komoly promptolás eredményeként érték el.
Tízből hat volt a legmagasabb pontszám
A generált tanulmányok kiértékeléséhez a GPT-4o-t használták. Az útmutató szerint szakterületi konferenciák követelményében szereplő, egytől tízig terjedő skálán kellett pontoznia (egyes abszolút pocsék, tízes díjra érdemes, felfedező újdonságot tartalmazó anyagok). Utána az LLM-nek döntenie kellett: elfogadja vagy elutasítja a tanulmányt.
A Claude Sonnet 3.5 teljesített legjobban, legmagasabb pontszámai hatosok voltak, el is fogadták azokat. A GPT-4o lett a második, legmagasabb pontszáma ötös volt, ami határesetnek számít, de elfogadták.
A generált anyagok átlaga 4,05 volt – a négyes az a határeset, amikor már visszautasítják a tanulmányt. A rendszereknél gyakori probléma, hogy ötleteiket nem képesek implementálni, időnként ők találják ki az eredményeket, máskor nem képesek idézni a legrelevánsabb tanulmányokat – vonták le a következtetést a kutatók.
Képek: DeepLearning.AI, Wikimedia Commons