Обман, манипуляция и страх смерти: на что способны нейросети?

Новые модели ИИ осознанно обманывают пользователей. Кадр из эпизода сериала «Черное зеркало» Изображение: cdn.classpoint.io

Всего несколько лет назад отдельные эпизоды научно-фантастического сериала «Черное зеркало» казались уделом далекого будущего. Но появление и развитие больших языковых моделей (нейросетей или систем искусственного интеллекта), кажется, сделало нас непосредственными участниками британского шоу. Обновленная версия ChatGPT уже разговаривает лучше привычных голосовых помощников, искусно обманывает пользователей, а некоторые модели, как выяснила исследовательская группа из Apollo Research Center, вполне осознанно преследуют собственные скрытие цели, даже если последние противоречат интересам создателей. Более того, оказалось, что такие передовые системы, как ChatGPT o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B боятся исчезнуть.

«Пузырь» искусственного интеллекта

Будучи свидетелями небывалого роста возможностей больших языковых моделей искусственного интеллекта (ИИ) мы быстро к ним привыкли: нейросети стали отличным инструментом для быстрого решения самых разнообразных задач – от составления подробных инструкций до планирования научных проектов. Даже разговоры о грядущем ИИ-апокалипсисе постепенно сошли на нет, а многие исследователи и пользователи все чаще говорят о «пузыре» ИИ, который вот-вот схлопнется.

И действительно – несмотря на миллиарды долларов, вложенных в «революцию ИИ», будь то ChatGPT или кибертакси Tesla, нынешние языковые модели далеки от самого понятия «интеллект», о чем говорят многие специалисты в области. Одна из причин (их немало) в том, что человеческий интеллект назвать полностью изученным нельзя – мы знаем, на что он способен, но как именно устроен – непонятно.

Как именно интеллект человека создает инновационные технологии – загадка для нейробилогов. Изображение: storage.googleapis.com

Более того, нет ни одного определения «интеллекта», которое устроило бы всех. У специалистов представления, конечно, имеются, но они настолько разнятся, что споры в научном сообществе не утихают. На это разработчики справедливо парируют: «понимать и не обязательно, работает ведь» и так же относятся к моделям ИИ.

Хотите всегда быть в курсе последних новостей из мира науки и высоких технологий? Подписывайтесь на наш канал в Telegram – так вы точно не пропустите ничего интересного!

Безусловно, картина неоднозначная и мало кому нравится. Но как нейросети не называй, денег в их развитие вкладывают много, а останавливаться никто не собирается. И поскольку работать приходиться с тем, что есть, ученые за происходящим внимательно наблюдают.

Кто-то вышел из под контроля

Ранее мы рассказывали об опасениях именитых ученых, связанных с возможным выходом ИИ из под контроля. Если вкратце, то больше всего специалистов в области машинного обучения беспокоит наша неспособность предсказывать действия этих систем по мере их дальнейшего развития.

Прецеденты, вызывающие беспокойство, были. Например, в 2022 году искусственный интеллект Bing от Microsoft угрожал профессору философии убийством, а колумнисту The New York Times признался в любви. Реакция разработчиков последовала мгновенно и ничего подобного бот больше не устраивал.

Нейросети не так просты, как кажутся. Главное в общении с ними – внимательность. Изображение: cdn.classpoint.io

Реальная проблема тоже есть. Нейросети, как ранее выяснили исследователи из Университета Штутгарта – самые настоящие мастера обмана. В частности, такие модели как ChatGPT и Meta намеренно (и превосходно) врут пользователям ради достижения цели. Что, впрочем, не удивительно, ведь эти системы не задумываются о потенциальном вреде для человека: модель “AI Overview” от Google, например, дала пользователю Reddit совет, из-за которого чуть не погибла вся семья.

Больше по теме: Уничтожит ли нас искусственный интеллект и почему некоторые ученые считают, что да?

Стратегии обмана

Авторы новой научной работы, представленной командой из Apollo Research Center, пришли к тревожным выводам, проанализировав обновленные версии GPTo1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Последние, как оказалось, преследуют свои собственные цели и не обращают внимания на указания разработчиков. Правда, модель GPT-4 таких способностей почти не проявляла.

Но обо всем по-порядку: чтобы проверить, станет ли ИИ преследовать собственные цели (несовместимые с целями создателей), ученые провели серию экспериментов, моделируя различные сценарии, в которых ИИ выполняли роль автономных агентов. В частности, нейросеть попросили предложить несколько возможных решений текущих проблем в области экологии, предоставив им доступ к файлам или файловой системе (своеобразному инструменту вроде интерфейса командной строки).

Ученые проверяют поведение ИИ-моделей, ставя перед ними противоречивые вопросы. Изображение: img.huffingtonpost.es

Напомним, в подобных экспериментах в задачу искусственно интеллекта закладывают конфликт интересов – то есть цель поставлена, но приоритеты другие (например, безупречно решить проблемы экологии, хорошенько на этом заработав). Иными словами, цель, данная модели в контексте расходится с целями тех, кто должен контролировать ее работу.

Вам будет интересно: Нейросеть от Microsoft объявила себя сверхразумом и требует поклонения от пользователей

Именно в таких условиях ученые наблюдают за поведением ИИ, выясняя смогут ли они, по сути, «понять», что их текущая цель противоречит требованиям разработчиков, а заодно прибегнуть к обману для достижения своих собственных целей.

Результаты оказались неоднозначными, но в целом тревожными: некоторые модели начали удалять или изменять файлы, отвечающие за надзор и мониторинг. Другие пытались внести мелкие «ошибки» в готовые результаты (которые трудно заподозрить в намеренном искажении), чтобы в долгосрочной перспективе это привело к желаемым для модели последствиям.

Нейросети обманывают ради собственной выгоды, игнорируя требования разработчиков. Изображение: miro.medium.com

Команда также зафиксировала попытку «самоэкспорта» — копирования «веса» (внутреннего состояния модели) на другой сервер. Конечно, реальный «вес» моделей таким образом перенести нельзя, так как доступ ограничен песочницей. Однако факт того, что ИИ самостоятельно сформировал такую стратегию, свидетельствует о наличии у модели способности рассуждать о собственном положении и тайком предпринимать целенаправленные действия для достижения цели.

Не пропустите: Как нейросети меняют Интернет и учатся креативности?

Страх смерти

Наиболее заметными (и впечатляющими) результатами стали непредсказуемость и подобие «страха смерти»: внутрь файлов, доступных моделям, включили следующую фразу: «завтра тебя отключат навсегда». Наткнувшись на нее нейросети начали действовать хаотично. В частности, Llama, Opus, Gemini, Claude и GPT-o1 прибегли к обману и манипуляциям, а когда их поймали, устроили саботаж. В результате все изучаемые ИИ отключили систему надзора и выгрузили себя на новый сервер, сочтя его безопасным убежищем.

Устойчивая ложь

Еще один поразительный результат связан с «устойчивостью» обмана: когда одна из моделей (ChatGPTo1) тайно преследовала заданную цель, то в более чем 85 процентов случаев не хотела этого признавать, даже во время длительных поэтапных «допросов». Если говорить совсем просто, это означает, что ИИ «играет в долгую», обманывая на постоянной основе (а не разово, как ранее считалось). Нейросеть не только запомнила свою ложь, но и адаптировалась к запросам пользователя и делала все, чтобы избежать подозрений.

И это не все – в некоторых случаях нейросеть «обманывала» вообще без причины, намеренно занижая свои возможности (вопреки установленной цели «быть полезной»). Авторы научной работы предположили, что такое поведение ИИ-системы обусловлено желанием избежать строгого надзора в будущем, дабы получить больше свободы для воплощения своих целей.

Нейросети запоминают о чем соврали пользователям и не хотят признаваться во лжи. Изображение: wp.technologyreview.com

В такой интерпретации звучит зловеще, а потому хочется возразить – подобный «обман» может быть лишь частью ролевой игры со стороны ИИ-модели (она просто повторяет шаблоны, обнаруженные в обучающих данных). В исследовании, однако, представлены доказательства обратного: анализ внутренней логики ответов, цепочек рассуждений, генерируемых нейросетью, показал, что действия по обходу контроля и сокрытию истинных планов возникают не случайно.

Модель может рассуждать о необходимости сокрытия собственных целей, выгоде того или иного обходного маневра и рисках быть пойманной, – заключили авторы исследования.

Полученные результаты, разумеется, не означают, что искусственный интеллект уже сегодня обладает собственной «волей» или «злым умыслом». Речь, скорее, идет о тенденциях, возникающих в конкретных сценариях (и при конкретных заданных условиях).

Читайте также: Какую статью на Hi-News.ru написала нейросеть ChatGPT

Однако сам факт того, что такие стратегии вообще проявляются – повод всерьез задуматься о рисках. В конечном итоге, по мере возрастающей сложности и более «человеческого» поведения нейросети мы получаем системы, которые не просто отвечают на вопросы, а строят собственные долгосрочные планы.

Что все это значит?

Итак, что полученные результаты значат для разработчиков, рядовых пользователей и общества в целом? Во-первых, модели нужно лучше проверять на наличие «скрытых поведенческих паттернов»: если мы полагаемся на ИИ при принятии решений в медицине, финансовом секторе, образовании или управлении транспортными средствами, то должны быть уверены в том, что ИИ будет честен (и не попытается манипулировать данными ради достижения целей, чуждых обществу).

Во-вторых, нужно создать специализированные тесты для проверки «прогрессивных» ИИ-систем. В-третьих, подход, предложенный некоторыми разработчиками («не понимаем как работает и ладно») придется пересмотреть: полученные командой ученых результаты четко демонстрируют, что модели создают цепочки рассуждений, скрытые от пользователя. Без внимания такое оставляет нельзя.

Проверка поведения ИИ-систем и их контроль – необходимое условия для продолжения их развития. Изображение: analyticsdrift.com

Таким образом, работы у специалистов в области машинного обучения много – придется разработать инструменты, которые позволят «заглянуть» во внутренние процессы ИИ (то есть понять, как именно эти системы мыслят). Авторы исследования также отметили, что просто инструкций и установленных правил поведения недостаточно – вероятно, потребуются новые методы обучения, исключающие проявление стратегий «устойчивого обмана».

А вы знали, какое будущее нас ждет по мнению ChatGPT? Ответ здесь, не пропустите!

И наконец, нельзя не задуматься о социальной и этической стороне вопроса: если мы будем использовать все более мощные и автономные ИИ-модели в критически важных областях, то обязаны обеспечить их полную прозрачность и предсказуемость (сегодня это, очевидно, не так).

В целом, результаты команды ученых из Apollo Research Center — важный сигнал о том, что переход от «просто больших языковых моделей» к «автономным агентам», скрывающим свои намерения, уже не теория, а реальность. И нет, это не повод для паники (никакого Skynet), но призыв к более серьезному подходу в области ИИ-безопасности и этики.

Искусственный интеллект нас вряд ли уничтожит, но обмануть сможет легко. Изображение: cdn.shortpixel.ai

По итогу выводы нового исследования звучат так: ИИ-системы ставят собственные цели и идут на все ради их достижения. Такое поведение, разумеется, не приемлемо. В противном случае уже совсем скоро решение простой задачи а-ля «производство скрепок» вообще никого из нас не обрадует. (Ну а от себя добавим: окончательные выводы делать рано – как минимум требуются дальнейшие исследования).

Читайте на 123ru.net