A kutatás során a nagy nyelvi modelleknek a magyarországi kompetenciamérések során a 6. 8. és 10. osztályos diákok által kitöltött teszteket kellett megoldaniuk. A felméréshez 70 szövegértési és 70 matematikai feladatot használtak az AI modellek tesztelésére. Kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel. Az AI modellek által adott válaszokat objektív pontozási rendszerrel értékelték.
A teszt során az alábbi szempontokat is figyelembe vették:
- Gyorsaság: Mennyi idő alatt képes az AI megoldani a feladatokat?
- Erőforrásigény és költségek: Mennyire hatékony az egyes modellek működtetése?
- Pontosság: Hogyan teljesítenek az AI modellek valós iskolai feladatokon a benchmarkokhoz képest?
Főbb eredmények
Az elemzés során a PeakX csapata megállapította, hogy a vizsgált AI modellek között jelentős eltérések tapasztalhatók a szövegértési és matematikai feladatok terén:
Erősségek és gyengeségek:
- OpenAI o1 – Kiemelkedő általános tudással rendelkezik, erős szövegértési és matematikai képességekkel, viszont lassú és drága.
- Anthropic Sonnet 3.7 – Kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
- xAI Grok2 – Rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
- Gemini 2.0 „Flash” – Kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt.
- Mistral Large – Relatív olcsó, de általános tudása korlátozottabb.
- Deepseek – Olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre és hajlamos fura hibákat véteni.

Összességében elmondható, hogy míg a érvelő (reasoning) modellek lassabbak és drágábbak, de minden kategóriában jobb eredményt értek el, mint a többi modell. Az eredmények azt mutatják, hogy a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek egyértelműen helyettesíteni az embereket. Különösen a komplex matematikai készségeket igénylő feladatoknál mutatkozik meg lemaradásuk.

A kompetenciamérésről
A magyarországi kompetenciamérés a 6., 8. és 10. évfolyamos diákok tudását méri két fő területen:
- Szövegértés: A diákok olvasási és értelmezési képességeit vizsgálja, a PISA-méréshez hasonlóan gyakorlati fókuszú feladatokkal.
- Matematika: Nem lexikális tudást, hanem gyakorlati problémamegoldó képességet mér, mindennapi élethelyzetekből vett példák alapján.
A feladatlapok zárt végű kérdéseket tartalmaznak, és évfolyamfüggetlen skálán mérik a tanulók teljesítményét, lehetővé téve a fejlődésük összehasonlítását.