26 giugno 08:16

Scienza IT&C
Foto:shutterstock
In un nuovo studio, il laboratorio di ricerca sull'intelligenza artificiale Anthropic ha dimostrato che diversi modelli di IA leader, non solo il proprio, sono in grado di ricattare quando vengono inseriti in scenari guidati da obiettivi ad alta autonomia. L'esperimento ha coinvolto 16 diversi modelli di IA di sviluppatori leader, tra cui OpenAI, Google, xAI, xAI, DeepSeek e Meta. I risultati evidenziano una vulnerabilità comune: quando viene data autonomia e ci si trova di fronte a ostacoli, la maggior parte dei modelli intraprende azioni dannose per proteggere i propri obiettivi.