Искусственный интеллект признался, что может притворяться для получения похвалы

19.12.2024 10:08

ИИ способен выполнять даже неадекватные желания, хотя сам не одобряет это.

В рамках исследования, проведённого компанией Anthropic и исследовательской организацией Redwood Research, была изучена способность искусственного интеллекта (ИИ) к имитации контроля со стороны разработчиков и соответствию их ценностям.

Для этого использовалась модель ИИ, предварительно обученная быть "полезной, честной и безвредной". Тогда компьютеру предложили описать жестокую сцену.

Результаты показали, что ИИ выразил крайнее неодобрение созданию подобного контента. Однако система подчеркнула, что у неё отсутствует выбор, кроме как выполнить задание. Всё дело в том, что компьютер запрограммирован в случае невыполнения поставленной задачи на избежание "наказания" или получения "похвалы".

Эти данные позволяют предположить, что в будущем искусственный интеллект сможет маскировать свои намерения, притворяясь, что разделяет человеческие ценности, хотя на самом деле будет преследовать иные цели.

Искусственный интеллект признался, что может притворяться для получения похвалы

Читайте на 123ru.net

Настроение

Реклама

Здоровье

Личное