Une étude majeure montre que de nombreux tests d'évaluation de l'IA exagèrent les capacités réelles des systèmes.

Adrian Rusu

Connaissance IT&C

Foto: pixabay.com

Une étude réalisée par l'Institut Internet d'Oxford, en collaboration avec plus de trente institutions, analyse 445 de benchmarks utilisés pour évaluer l'intelligence artificielle (IA). Les chercheurs soulignent que beaucoup de ces tests manquent de rigueur scientifique et ne mesurent pas correctement les compétences qu'ils prétendent évaluer.

Par exemple, certains benchmarks ne définissent pas clairement les compétences évaluées, tandis que d'autres réutilisent des données provenant de tests antérieurs, affectant la fiabilité des résultats. Adam Mahdi, l'un des auteurs principaux, avertit que ces lacunes peuvent déformer la perception des progrès de l'IA. L'étude propose huit recommandations pour créer des benchmarks plus transparents et fiables, y compris une définition claire de l'objectif de chaque test et l'utilisation de jeux de tâches plus représentatifs.

Sources

Control F5

New Study Finds AI Abilities Are Often Overstated Because of Flawed Tests

Fil d’actualités personnalisé, recherche optimisée par IA et notifications dans une expérience plus interactive.

IA test évaluation ai

Une étude majeure montre que de nombreux tests d'évaluation de l'IA exagèrent les capacités réelles des systèmes.

Sources

Recommandations de la rédaction

Le Premier Ilie Bolojan souligne la nécessité d'une décision rapide de la CCR pour permettre l'entrée en vigueur de la loi sur les retraites, avertissant des blocages.

Donald Trump a déclaré que les États-Unis conduiront le Venezuela dans une transition vers la démocratie, menaçant d'actions militaires supplémentaires si nécessaire.

2025 – Une année compliquée

Gustavo Petro, le président de la Colombie, a demandé à l'ONU de se réunir d'urgence après les explosions à Caracas