過去24時間以内に新しいニュースが63件あります

大規模な研究は、多くのAI評価テストがシステムの実際の能力を誇張していることを示しています。

Adrian Rusu

21 11月 2025, 15:55

main event image

IT&Cの知識

Foto: pixabay.com

google-preference

Googleでいつでも私たちのニュースを見る

オックスフォードインターネット研究所が30以上の機関と協力して実施した研究では、人工知能（AI）の評価に使用される445のベンチマークを分析しています。研究者たちは、これらのテストの多くが科学的な厳密さを欠いており、評価すると主張する能力を正しく測定していないことを強調しています。

例えば、一部のベンチマークは評価される能力を明確に定義しておらず、他のものは以前のテストからデータを再利用しており、結果の信頼性に影響を与えています。主要著者の一人であるアダム・マフディは、これらの欠陥がAIの進歩に対する認識を歪める可能性があると警告しています。この研究は、各テストの目的を明確に定義し、より代表的なタスクセットを使用することを含む、より透明で信頼できるベンチマークを作成するための8つの推奨事項を提案しています。

ソース

New Study Finds AI Abilities Are Often Overstated Because of Flawed Tests

最新ニュース

17:20

イランの石油省は、アメリカとの戦争の5ヶ月間で180億ドルの石油販売を発表しました。

17:00

NATOの反応：ルーマニアが国の空域で3機目のロシアのドローンを撃墜した後、同盟はあらゆる空の脅威に対して対応する準備ができていると宣言した。

16:35

イランは、アメリカが爆撃を再開すれば戦争を拡大すると脅迫しています。

16:11

INHGA: ドナウ川の流量は1,650立方メートル/秒に達し、7月の平均の3分の1になります。内陸の川は静止したままですが、局所的な洪水の可能性が予測されています。

15:42

オトペニ空港で発見された偽の書類とパスポート：搭乗前に止められた5人

さらにニュースを見る

AI検索機能付きのパーソナライズされたニュースフィードと通知で、よりインタラクティブな体験を。

AI テスト評価する

AI検索機能付きのパーソナライズされたニュースフィードと通知で、よりインタラクティブな体験を。

app preview

google play badge