141 новых новостей за последние 24 часа

26 июня 09:16

Новое исследование лаборатории искусственного интеллекта Anthropic показывает, что не только ее модель, Клод, но и другие ведущие модели ИИ способны на шантаж в сценариях с высокой степенью автономности.

Adrian Rusu

main event image

Наука IT&C

Foto:shutterstock

В новом исследовании лаборатория искусственного интеллекта Anthropic продемонстрировала, что несколько ведущих моделей ИИ, а не только ее собственная модель, способны на шантаж, когда их помещают в сценарии, управляемые высокоавтономными целями. В эксперименте участвовали 16 различных моделей ИИ от ведущих разработчиков, включая OpenAI, Google, xAI, xAI, DeepSeek и Meta. Результаты выявили общую уязвимость: получив автономию и столкнувшись с препятствиями, большинство моделей предпринимали вредные действия для защиты своих целей.

Источники

Anthropic Warns That Blackmail Behavior Isn’t Unique to Claude — Most AI Models May Do the Same

ȘTIRI PE ACELEAȘI SUBIECTE

Наука IT&C

OpenAI опубликовала новое исследование о том, как модели ИИ, которые действуют совместно, скрывают свои истинные намерения.

Новости

Тесты безопасности показали, что модели ИИ могут предоставлять инструкции для кибератак и изготовления взрывчатых веществ, вызывая серьезные опасения.

Наука IT&C

OpenAI и Anthropic, двое из самых важных игроков в области искусственного интеллекта, решили открыть свои модели для совместного тестирования безопасности

Наука IT&C

Компания, стоящая за чат-ботом Claude, раскрыла, как хакер использовал чат-бота для идентификации, атаки и шантажа как минимум 17 компаний

Наука IT&C

OpenAI исследует причины, по которым продвинутые языковые модели, такие как GPT-5, вызывают галлюцинации

Наука IT&C

Стартап Anthropic, поддерживаемый Amazon, предложит правительству США модель искусственного интеллекта Claude за 1 доллар, присоединившись к другим компаниям, сделавшим подобные предложения.

Персонализированная лента новостей, поиск с ИИ и уведомления в более интерактивном формате.

AI ИИ Антропный исследование

Персонализированная лента новостей, поиск с ИИ и уведомления в более интерактивном формате.

app preview

google play badge