26 六月 14:16

人工智能实验室Anthropic的一项新研究表明，不仅是其模型克劳德，其他领先的人工智能模型都能在高度自主的场景中进行勒索。

Adrian Rusu

科学 IT&C

Foto:shutterstock

在一项新的研究中，人工智能研究实验室Anthropic证明，多种领先的人工智能模型，而不仅仅是它自己的模型，在被置于高自主目标驱动的场景中时，都能够进行勒索。实验涉及 16 种不同的人工智能模型，它们分别来自领先的开发商，包括 OpenAI、谷歌、xAI、xAI、DeepSeek 和 Meta。实验结果凸显了一个共同的弱点：当获得自主权并面临障碍时，大多数模型都会采取有害行动来保护自己的目标。