Как распознать сгенерированный текст: новый метод ученых
Бывает, читая текст, трудно определить, кто его автор — человек или машина. Исследователи придумали способ, как это исправить.
Исследователи из Северо-Восточного университета в США разработали метод определения авторства текста: анализ синтаксических конструкций. Оказалось, что искусственный интеллект при генерации статей чаще использует некоторые комбинации имен существительных, глаголов и прилагательных, чем человек, сообщает TechXplore.
Известно, что ИИ-модели склонны к повторению некоторых слов. Например, ChatGPT ранее активно использовал словосочетание delve into («погружаться в»). Однако изучение лексических повторов не дает полной картины, чтобы понять, кто автор первоисточника. Поэтому ученые решили сосредоточиться на более глубоком уровне анализа — синтаксисе. Команда заставила языковые модели генерировать различные типы текстов — от обзоров фильмов до научных статей. Анализируя полученные данные, они выявили характерные для ИИ синтаксические шаблоны — повторяющиеся последовательности частей речи.
Типы конструкций, характерных для «сочинений» ИИ, отличались друг от друга. Каждый алгоритм имел свою «подпись». Например, в обзорах фильмов часто встречались двойные прилагательные. В рецензии на фильм «Последний черный человек в Сан-Франциско» в двух абзацах используются сочетания вроде «уникальный и интенсивный зрительский опыт», «высоко оригинальный и впечатляющий дебют» и «магический и заставляющий задуматься». Люди тоже могут создавать паттерны письма. В «человеческих» предложениях могут быть повторяющиеся конструкции, но это происходит гораздо реже, чем у машинных инструментов.