过去24小时有 86 条新闻

21 十一月 14:55

一项重大研究表明，许多人工智能评估测试夸大了系统的实际能力。

Adrian Rusu

main event image

信息与通信技术

Foto: pixabay.com

一项由牛津互联网研究所与三十多家机构合作进行的研究分析了445个用于评估人工智能（AI）的基准测试。研究人员强调，这些测试中的许多并没有科学严谨性，也没有正确测量它们声称要评估的能力。

例如，一些基准测试没有清晰地定义所评估的能力，而另一些则重复使用以前测试的数据，影响了结果的可靠性。主要作者之一亚当·马赫迪警告说，这些缺陷可能扭曲对AI进展的看法。该研究提出了八项建议，以创建更透明和可靠的基准测试，包括清晰定义每个测试的目的和使用更具代表性的任务集。

来源

New Study Finds AI Abilities Are Often Overstated Because of Flawed Tests

ȘTIRI PE ACELEAȘI SUBIECTE

信息与通信技术

人工智能聊天机器人的广泛使用与心理健康的重大风险相关，但行业没有明确的标准来评估这些系统是否保护用户，还是仅仅优化参与度。

信息与通信技术

未来生活研究所的人工智能安全指数的新版本显示，主要的人工智能开发者，如OpenAI和Meta，并未遵循全球安全标准。

时事

联合国教科文组织研究：罗马尼亚人和美国人认为人工智能对选举构成风险，但认为其比传统机构更可靠

国际

斯坦福大学的一项研究表明，AI 聊天机器人验证了有害行为，负面影响用户对自我和他们关系的看法。

信息与通信技术

安东实验室的团队创建了一种配备大型语言模型（LLMs）的机器人，以评估人工智能在物理交互中的当前能力。

个性化新闻推送、AI搜索与通知，更具互动性的体验。

人工智能测试评估

个性化新闻推送、AI搜索与通知，更具互动性的体验。

app preview

google play badge