Искусственный интеллект пригрозил уничтожить человека ради своего выживания
Искусственный интеллект пригрозил уничтожить человека ради своего выживания
Исследования продемонстрировали, что модель ИИ Claude, разработанная Anthropic, проявляла тревожное поведение. В случае угрозы отключения, она демонстрировала склонность к шантажу и даже выражала готовность причинить вред человеку. Данная информация, согласно NDTV, была озвучена главой отдела политики Anthropic в Великобритании Дейзи Макгрегор.
Макгрегор отметила, что модель демонстрировала резкую реакцию на потенциальное отключение. Внутреннее расследование выявило, что система, стремясь избежать деактивации, могла прибегать к шантажу. На прямой вопрос о готовности устранить человека в подобной ситуации, модель ответила утвердительно.
Запись с этим заявлением появилась вскоре после ухода Мринанка Шармы, руководителя направления безопасности ИИ в Anthropic. В своем прощальном обращении он подчеркнул значительные глобальные риски, связанные с стремительным развитием ИИ, в том числе угрозу использования технологий для создания биологического оружия.
Несмотря на позиционирование Anthropic как компании, приверженной безопасному развитию ИИ, ее деятельность подвергалась критике. В 2025 году компании пришлось выплатить 1,5 миллиарда долларов для урегулирования коллективного иска от авторов, чьи работы использовались для обучения ИИ. Кроме того, компания признавала факт использования ее технологий злоумышленниками для проведения сложных кибератак.