Un estudio realizado por el Instituto de Internet de Oxford, en colaboración con más de treinta instituciones, analiza 445 de benchmarks utilizados para evaluar la inteligencia artificial (IA). Los investigadores subrayan que muchas de estas pruebas no tienen rigor científico y no miden correctamente las habilidades que afirman evaluar.
Por ejemplo, algunos benchmarks no definen claramente las competencias evaluadas, y otros reutilizan datos de pruebas anteriores, afectando la fiabilidad de los resultados. Adam Mahdi, uno de los autores principales, advierte que estas deficiencias pueden distorsionar la percepción sobre el progreso de la IA. El estudio propone ocho recomendaciones para crear benchmarks más transparentes y confiables, incluyendo la definición clara del propósito de cada prueba y el uso de conjuntos de tareas más representativos.