search icon
search icon
Flag Arrow Down
Română
Română
Magyar
Magyar
English
English
Français
Français
Deutsch
Deutsch
Italiano
Italiano
Español
Español
Русский
Русский
日本語
日本語
中国人
中国人

更改语言

arrow down
  • Română
    Română
  • Magyar
    Magyar
  • English
    English
  • Français
    Français
  • Deutsch
    Deutsch
  • Italiano
    Italiano
  • Español
    Español
  • Русский
    Русский
  • 日本語
    日本語
  • 中国人
    中国人
栏目
  • 最新消息
  • 独家
  • INSCOP 调查
  • 播客
  • 侨民
  • 摩尔多瓦共和国
  • 政治
  • 经济
  • 时事
  • 国际
  • 运动
  • 健康
  • 教育
  • 信息与通信技术
  • 艺术与生活方式
  • 意见
  • 2025年选举
  • 环境
关于我们
联系我们
隐私政策
条款和条件
快速浏览新闻摘要并查看不同出版物如何报道它们!
  • 最新消息
  • 独家
    • INSCOP 调查
    • 播客
    • 侨民
    • 摩尔多瓦共和国
    • 政治
    • 经济
    • 时事
    • 国际
    • 运动
    • 健康
    • 教育
    • 信息与通信技术
    • 艺术与生活方式
    • 意见
    • 2025年选举
    • 环境
  1. 首页
  2. 信息与通信技术
过去24小时有 86 条新闻
21 十一月 14:55

一项重大研究表明,许多人工智能评估测试夸大了系统的实际能力。

Adrian Rusu
whatsapp
facebook
linkedin
x
copy-link copy-link
main event image
信息与通信技术
Foto: pixabay.com

一项由牛津互联网研究所与三十多家机构合作进行的研究分析了445个用于评估人工智能(AI)的基准测试。研究人员强调,这些测试中的许多并没有科学严谨性,也没有正确测量它们声称要评估的能力。

例如,一些基准测试没有清晰地定义所评估的能力,而另一些则重复使用以前测试的数据,影响了结果的可靠性。主要作者之一亚当·马赫迪警告说,这些缺陷可能扭曲对AI进展的看法。该研究提出了八项建议,以创建更透明和可靠的基准测试,包括清晰定义每个测试的目的和使用更具代表性的任务集。

来源

sursa imagine
Control F5
New Study Finds AI Abilities Are Often Overstated Because of Flawed Tests

ȘTIRI PE ACELEAȘI SUBIECTE

event image
信息与通信技术
人工智能聊天机器人的广泛使用与心理健康的重大风险相关,但行业没有明确的标准来评估这些系统是否保护用户,还是仅仅优化参与度。
event image
信息与通信技术
未来生活研究所的人工智能安全指数的新版本显示,主要的人工智能开发者,如OpenAI和Meta,并未遵循全球安全标准。
event image
时事
联合国教科文组织研究:罗马尼亚人和美国人认为人工智能对选举构成风险,但认为其比传统机构更可靠
event image
国际
斯坦福大学的一项研究表明,AI 聊天机器人验证了有害行为,负面影响用户对自我和他们关系的看法。
event image
信息与通信技术
安东实验室的团队创建了一种配备大型语言模型(LLMs)的机器人,以评估人工智能在物理交互中的当前能力。
app preview
个性化新闻推送、AI搜索与通知,更具互动性的体验。
app preview app preview
人工智能 测试 评估

编辑推荐

main event image
意见
昨天 17:32

埃米尔·胡雷泽亚努:今天文凭还有什么意义?

main event image
独家
昨天 16:35
独家内容

IT新闻评论由Control F5软件提供:AI聊天机器人可以通过使用不准确的信息来影响政治观点

main event image Play button
星期五 21:30
播客

播客:informat.ro 对话 - 两难

app preview
个性化新闻推送、AI搜索与通知,更具互动性的体验。
app preview
app store badge google play badge
  • 最新消息
  • 独家
  • INSCOP 调查
  • 播客
  • 侨民
  • 摩尔多瓦共和国
  • 政治
  • 经济
  • 时事
  • 国际
  • 运动
  • 健康
  • 教育
  • 信息与通信技术
  • 艺术与生活方式
  • 意见
  • 2025年选举
  • 环境
  • 关于我们
  • 联系我们
隐私政策
Cookie 政策
条款和条件
开源许可证
版权所有 Strategic Media Team SRL

合作伙伴技术

anpc-sal anpc-sol