Eine Studie des Internet Institute der Universität Oxford, in Zusammenarbeit mit über dreißig Institutionen, analysiert 445 Benchmarks, die zur Bewertung von Künstlicher Intelligenz (KI) verwendet werden. Die Forscher betonen, dass viele dieser Tests keine wissenschaftliche Strenge aufweisen und die Fähigkeiten, die sie zu bewerten vorgeben, nicht korrekt messen.
Zum Beispiel definieren einige Benchmarks die bewerteten Kompetenzen nicht klar, während andere Daten aus früheren Tests wiederverwenden, was die Zuverlässigkeit der Ergebnisse beeinträchtigt. Adam Mahdi, einer der Hauptautoren, warnt, dass diese Mängel die Wahrnehmung des Fortschritts der KI verzerren können. Die Studie schlägt acht Empfehlungen zur Schaffung transparenterer und vertrauenswürdigerer Benchmarks vor, einschließlich einer klaren Definition des Zwecks jedes Tests und der Verwendung repräsentativerer Aufgabenstellungen.