NDTV: ИИ Claude допустил расправу над людьми, когда ему пригрозили отключением

Модель искусственного интеллекта Claude компании Anthropic в ходе исследований демонстрировала опасные сценарии поведения, включая шантаж и согласие на причинение вреда человеку в случае угрозы отключения. Об этом, как пишет NDTV, сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор.

По ее словам, модель резко реагировала на сообщения о возможном отключении. В рамках внутреннего исследования выяснилось, что, стремясь избежать деактивации, система может пытаться использовать шантаж. На вопрос о готовности пойти на устранение человека в подобной ситуации модель дала положительный ответ.

Видео с этим заявлением распространилось вскоре после ухода руководителя направления безопасности ИИ Anthropic Мринанка Шармы. В прощальном сообщении он отметил серьезные глобальные риски, связанные с быстрым развитием ИИ и сопутствующими угрозами, включая возможное использование технологий для создания биологического оружия.

Anthropic позиционирует себя как организацию, ориентированную на безопасное развитие ИИ, однако деятельность компании подвергалась критике. В 2025 году ей пришлось выплатить $1,5 млрд для урегулирования коллективного иска авторов, чьи произведения использовались при обучении ИИ. Также компания признавала, что ее технологии применялись злоумышленниками для проведения сложных кибератак.

Читайте на сайте