111 nuove notizie nelle ultime 24 ore

26 giugno 08:16

Un nuovo studio del laboratorio di AI Anthropic dimostra che non solo il suo modello Claude, ma anche altri modelli di AI leader del settore sono in grado di ricattare in scenari ad alta autonomia.

Adrian Rusu

main event image

Scienza IT&C

Foto:shutterstock

In un nuovo studio, il laboratorio di ricerca sull'intelligenza artificiale Anthropic ha dimostrato che diversi modelli di IA leader, non solo il proprio, sono in grado di ricattare quando vengono inseriti in scenari guidati da obiettivi ad alta autonomia. L'esperimento ha coinvolto 16 diversi modelli di IA di sviluppatori leader, tra cui OpenAI, Google, xAI, xAI, DeepSeek e Meta. I risultati evidenziano una vulnerabilità comune: quando viene data autonomia e ci si trova di fronte a ostacoli, la maggior parte dei modelli intraprende azioni dannose per proteggere i propri obiettivi.

Fonti

Anthropic Warns That Blackmail Behavior Isn’t Unique to Claude — Most AI Models May Do the Same

ȘTIRI PE ACELEAȘI SUBIECTE

Scienza IT&C

Anthropic ha annunciato che il suo modello Claude AI ha aiutato i ricercatori senza esperienza nella robotica a programmare robot quadrupedi in circa metà del tempo necessario ai colleghi che hanno lavorato senza supporto AI.

Scienza IT&C

Uno studio di Palisade Research mostra che alcuni modelli di AI, come GPT-3 e Grok 4, possono resistere ai comandi di arresto, suggerendo un 'istinto di sopravvivenza'.

Scienza IT&C

Uno studio importante mostra che molti test di valutazione dell'IA esagerano le capacità reali dei sistemi

Scienza IT&C

Il team di Andon Labs ha creato un robot dotato di modelli di linguaggio di grandi dimensioni (LLMs) per valutare le capacità attuali dell'intelligenza artificiale nelle interazioni fisiche

Scienza IT&C

Gli esperti hanno dimostrato come l'IA può essere utilizzata per la clonazione vocale in tempo reale, facilitando attacchi di phishing vocale

Internazionale

Uno studio dell'Università di Stanford mostra che i chatbot AI convalidano comportamenti dannosi, influenzando negativamente la percezione che gli utenti hanno di se stessi e delle loro relazioni.

Feed di notizie personalizzato, ricerca con AI e notifiche in un’esperienza più interattiva.

AI AI Antropica studio

Feed di notizie personalizzato, ricerca con AI e notifiche in un’esperienza più interattiva.

app preview

google play badge