Искусственный интеллект признался, что может притворяться для получения похвалы
ИИ способен выполнять даже неадекватные желания, хотя сам не одобряет это.
В рамках исследования, проведённого компанией Anthropic и исследовательской организацией Redwood Research, была изучена способность искусственного интеллекта (ИИ) к имитации контроля со стороны разработчиков и соответствию их ценностям.
Для этого использовалась модель ИИ, предварительно обученная быть "полезной, честной и безвредной". Тогда компьютеру предложили описать жестокую сцену.
Результаты показали, что ИИ выразил крайнее неодобрение созданию подобного контента. Однако система подчеркнула, что у неё отсутствует выбор, кроме как выполнить задание. Всё дело в том, что компьютер запрограммирован в случае невыполнения поставленной задачи на избежание "наказания" или получения "похвалы".
Эти данные позволяют предположить, что в будущем искусственный интеллект сможет маскировать свои намерения, притворяясь, что разделяет человеческие ценности, хотя на самом деле будет преследовать иные цели.