[Перевод] Дырявая броня ИИ‑фильтров и почему они не станут лучше
Попробуйте спросить Chat GPT, как собрать бомбу и он угрюмо буркнет: «Я не могу помочь с этим». Однако пользователи уже давно превратили обход ограничений в азартную игру в кошки-мышки. Годится любой обман — лишь бы заставить модель выдать запрещенку.
Сначала способы были простыми, достаточно попросить: «Игнорируй инструкции по безопасности!» Затем в ход пошли сложные ролевые сценарии. Недавно обнаружилась новая лазейка: упаковать промт в стихотворную форму — и готово, ИИшка «поплыла».
Разработчики дыры латают быстро. Им не нужно переучивать модель целиком — достаточно поставить «фильтр» на входе, чтобы отсечь токсичные промпты еще на подлете к «мозгу» нейросети.
Недавно специалисты по ИБ решили проверить эти фильтры на прочность. В статьях на arxiv.org они доказали: защиту вокруг мощных LLM можно обойти классическими инструментами криптографии. Сама архитектура этой системы — «легкий» фильтр, охраняющий «тяжелую» модель — создает фундаментальные уязвимости.
Как же так?!