Un studiu realizat de Institutul Internetului de la Oxford, în colaborare cu peste treizeci de instituții, analizează 445 de benchmark-uri utilizate pentru evaluarea inteligenței artificiale (AI). Cercetătorii subliniază că multe dintre aceste teste nu au rigoare științifică și nu măsoară corect abilitățile pe care pretind că le evaluează.
De exemplu, unele benchmark-uri nu definesc clar competentele evaluate, iar altele reutilizează date din teste anterioare, afectând fiabilitatea rezultatelor. Adam Mahdi, unul dintre autorii principali, avertizează că aceste deficiențe pot distorsiona percepția asupra progresului AI. Studiul propune opt recomandări pentru crearea unor benchmark-uri mai transparente și de încredere, inclusiv definirea clară a scopului fiecărui test și utilizarea unor seturi de sarcini mai reprezentative.