21 11月 15:55
IT&Cの知識
Foto: pixabay.com
オックスフォードインターネット研究所が30以上の機関と協力して実施した研究では、人工知能(AI)の評価に使用される445のベンチマークを分析しています。研究者たちは、これらのテストの多くが科学的な厳密さを欠いており、評価すると主張する能力を正しく測定していないことを強調しています。
例えば、一部のベンチマークは評価される能力を明確に定義しておらず、他のものは以前のテストからデータを再利用しており、結果の信頼性に影響を与えています。主要著者の一人であるアダム・マフディは、これらの欠陥がAIの進歩に対する認識を歪める可能性があると警告しています。この研究は、各テストの目的を明確に定義し、より代表的なタスクセットを使用することを含む、より透明で信頼できるベンチマークを作成するための8つの推奨事項を提案しています。