Une étude réalisée par l'Institut Internet d'Oxford, en collaboration avec plus de trente institutions, analyse 445 de benchmarks utilisés pour évaluer l'intelligence artificielle (IA). Les chercheurs soulignent que beaucoup de ces tests manquent de rigueur scientifique et ne mesurent pas correctement les compétences qu'ils prétendent évaluer.
Par exemple, certains benchmarks ne définissent pas clairement les compétences évaluées, tandis que d'autres réutilisent des données provenant de tests antérieurs, affectant la fiabilité des résultats. Adam Mahdi, l'un des auteurs principaux, avertit que ces lacunes peuvent déformer la perception des progrès de l'IA. L'étude propose huit recommandations pour créer des benchmarks plus transparents et fiables, y compris une définition claire de l'objectif de chaque test et l'utilisation de jeux de tâches plus représentatifs.