Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Hogy teljesít az AI a magyar iskolai kompetenciamérésen?

A PeakX, a Peak csoport mesterséges intelligencia üzletágának csapata átfogó kutatást végzett a jelenleg legismertebb modellek teljesítményéről. Arra voltak kíváncsiak, hogy különböző AI chatbotok valós környezetben milyen eredményeket érnek el szövegértési, matematikai és egyéb tudományterületeken. Az eredmények szemléletesek.

A kutatás során a nagy nyelvi modelleknek a magyarországi  kompetenciamérések során a 6. 8. és 10. osztályos diákok által kitöltött teszteket kellett megoldaniuk. A felméréshez 70 szövegértési és 70 matematikai feladatot használtak az AI modellek tesztelésére. Kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel. Az AI modellek által adott válaszokat objektív pontozási rendszerrel értékelték.

A teszt során az alábbi szempontokat is figyelembe vették:

  • Gyorsaság: Mennyi idő alatt képes az AI megoldani a feladatokat?
  • Erőforrásigény és költségek: Mennyire hatékony az egyes modellek működtetése?
  • Pontosság: Hogyan teljesítenek az AI modellek valós iskolai feladatokon a benchmarkokhoz képest?

Főbb eredmények

Az elemzés során a PeakX csapata megállapította, hogy a vizsgált AI modellek között jelentős eltérések tapasztalhatók a szövegértési és matematikai feladatok terén:

Erősségek és gyengeségek:

  • OpenAI o1 – Kiemelkedő általános tudással rendelkezik, erős szövegértési és matematikai képességekkel, viszont lassú és drága.
  • Anthropic Sonnet 3.7 – Kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
  • xAI Grok2 – Rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
  • Gemini 2.0 „Flash” – Kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt.
  • Mistral Large – Relatív olcsó, de általános tudása korlátozottabb.
  • Deepseek – Olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre és hajlamos fura hibákat véteni.
(Forrás: PeakX)

Összességében elmondható, hogy míg a érvelő (reasoning) modellek lassabbak és drágábbak, de minden kategóriában jobb eredményt értek el, mint a többi modell. Az eredmények azt mutatják, hogy a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek egyértelműen helyettesíteni az embereket. Különösen a komplex matematikai készségeket igénylő feladatoknál mutatkozik meg lemaradásuk.

(Forrás: PeakX)

A kompetenciamérésről

A magyarországi kompetenciamérés a 6., 8. és 10. évfolyamos diákok tudását méri két fő területen:

  • Szövegértés: A diákok olvasási és értelmezési képességeit vizsgálja, a PISA-méréshez hasonlóan gyakorlati fókuszú feladatokkal.
  • Matematika: Nem lexikális tudást, hanem gyakorlati problémamegoldó képességet mér, mindennapi élethelyzetekből vett példák alapján.

A feladatlapok zárt végű kérdéseket tartalmaznak, és évfolyamfüggetlen skálán mérik a tanulók teljesítményét, lehetővé téve a fejlődésük összehasonlítását.

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!