26 6月 15:16

AI研究所Anthropicの新しい研究によると、同社のモデルであるクロードだけでなく、他の主要なAIモデルも高度自律シナリオにおいて恐喝が可能であることが示された。

Adrian Rusu

科学IT&C

Foto:shutterstock

人工知能研究機関Anthropicは新たな研究で、自社のモデルだけでなく、複数の主要なAIモデルが、高自律性のターゲットによって駆動されるシナリオに置かれた場合に恐喝が可能であることを実証した。実験には、OpenAI、Google、xAI、DeepSeek、Metaを含む主要開発者の16種類のAIモデルが参加した。その結果、共通の脆弱性が浮き彫りになった。自律性が与えられ、障害に直面したとき、ほとんどのモデルは目標を守るために有害な行動をとったのだ。