26 juin 08:16

Science IT&C
Foto:shutterstock
Dans une nouvelle étude, le laboratoire de recherche en intelligence artificielle Anthropic a démontré que plusieurs modèles d'IA de premier plan, et pas seulement son propre modèle, sont capables de faire du chantage lorsqu'ils sont placés dans des scénarios dirigés par des cibles à forte autonomie. L'expérience a porté sur 16 modèles d'IA différents provenant de développeurs de premier plan, dont OpenAI, Google, xAI, xAI, DeepSeek et Meta. Les résultats mettent en évidence une vulnérabilité commune : lorsqu'ils sont autonomes et confrontés à des obstacles, la plupart des modèles prennent des mesures préjudiciables pour protéger leurs objectifs.