星期四 14:16
人工智能实验室Anthropic的一项新研究表明,不仅是其模型克劳德,其他领先的人工智能模型都能在高度自主的场景中进行勒索。
Adrian Rusu

科学 IT&C
Foto:shutterstock
在一项新的研究中,人工智能研究实验室Anthropic证明,多种领先的人工智能模型,而不仅仅是它自己的模型,在被置于高自主目标驱动的场景中时,都能够进行勒索。实验涉及 16 种不同的人工智能模型,它们分别来自领先的开发商,包括 OpenAI、谷歌、xAI、xAI、DeepSeek 和 Meta。实验结果凸显了一个共同的弱点:当获得自主权并面临障碍时,大多数模型都会采取有害行动来保护自己的目标。