csütörtök 08:16
Az Anthropic mesterséges intelligencia laboratórium új tanulmánya azt mutatja, hogy nem csak a Claude nevű modellje, hanem más vezető mesterséges intelligencia modellek is képesek zsarolásra a magas autonómiájú forgatókönyvekben.
Adrian Rusu

Tudomány IT&C
Foto:shutterstock
Egy új tanulmányban az Anthropic mesterségesintelligencia-kutató laboratórium kimutatta, hogy több vezető mesterséges intelligencia-modell - nem csak a saját modellje - képes zsarolásra, amikor magas autonómiájú célpontok által vezérelt forgatókönyvekbe kerül. A kísérletben 16 különböző AI-modell vett részt vezető fejlesztőktől, köztük az OpenAI, a Google, az xAI, az xAI, az xAI, a DeepSeek és a Meta. Az eredmények rávilágítanak egy közös sebezhetőségre: amikor autonómiát kaptak és akadályokkal szembesültek, a legtöbb modell káros lépéseket tett céljai védelmében.