一项由牛津互联网研究所与三十多家机构合作进行的研究分析了445个用于评估人工智能(AI)的基准测试。研究人员强调,这些测试中的许多并没有科学严谨性,也没有正确测量它们声称要评估的能力。
例如,一些基准测试没有清晰地定义所评估的能力,而另一些则重复使用以前测试的数据,影响了结果的可靠性。主要作者之一亚当·马赫迪警告说,这些缺陷可能扭曲对AI进展的看法。该研究提出了八项建议,以创建更透明和可靠的基准测试,包括清晰定义每个测试的目的和使用更具代表性的任务集。
一项由牛津互联网研究所与三十多家机构合作进行的研究分析了445个用于评估人工智能(AI)的基准测试。研究人员强调,这些测试中的许多并没有科学严谨性,也没有正确测量它们声称要评估的能力。
例如,一些基准测试没有清晰地定义所评估的能力,而另一些则重复使用以前测试的数据,影响了结果的可靠性。主要作者之一亚当·马赫迪警告说,这些缺陷可能扭曲对AI进展的看法。该研究提出了八项建议,以创建更透明和可靠的基准测试,包括清晰定义每个测试的目的和使用更具代表性的任务集。