jeudi 08:16
Une nouvelle étude du laboratoire d'IA Anthropic montre que non seulement son modèle, Claude, mais aussi d'autres modèles d'IA de premier plan sont capables de chantage dans des scénarios de haute autonomie.
Adrian Rusu

Science IT&C
Foto:shutterstock
Dans une nouvelle étude, le laboratoire de recherche en intelligence artificielle Anthropic a démontré que plusieurs modèles d'IA de premier plan, et pas seulement son propre modèle, sont capables de faire du chantage lorsqu'ils sont placés dans des scénarios dirigés par des cibles à forte autonomie. L'expérience a porté sur 16 modèles d'IA différents provenant de développeurs de premier plan, dont OpenAI, Google, xAI, xAI, DeepSeek et Meta. Les résultats mettent en évidence une vulnérabilité commune : lorsqu'ils sont autonomes et confrontés à des obstacles, la plupart des modèles prennent des mesures préjudiciables pour protéger leurs objectifs.