Donnerstag 08:16
Eine neue Studie des KI-Labors von Anthropic zeigt, dass nicht nur sein Modell Claude, sondern auch andere führende KI-Modelle in hochautonomen Szenarien erpressbar sind.
Adrian Rusu

Wissenschaft IT&C
Foto:shutterstock
In einer neuen Studie hat das Forschungslabor für künstliche Intelligenz Anthropic nachgewiesen, dass mehrere führende KI-Modelle, nicht nur das eigene Modell, erpressbar sind, wenn sie in Szenarien eingesetzt werden, die von hochautonomen Zielen gesteuert werden. An dem Experiment waren 16 verschiedene KI-Modelle von führenden Entwicklern beteiligt, darunter OpenAI, Google, xAI, xAI, DeepSeek und Meta. Die Ergebnisse zeigen eine gemeinsame Schwachstelle auf: Wenn sie autonom sind und mit Hindernissen konfrontiert werden, ergreifen die meisten Modelle schädliche Maßnahmen, um ihre Ziele zu schützen.