Reddit усиливает борьбу с ИИ-ботами
В ближайшие недели Reddit лишит большинство автоматизированных ботов доступа к своим публичным данным. Для того чтобы использовать контент Reddit для обучения моделей искусственного интеллекта (ИИ), компаниям нужно будет заключать лицензионное соглашение, как это уже сделали Google и OpenAI.
Reddit обновит веб-стандарт robots.txt, который определяет, как поисковые боты могут получать доступ к сайту.
«Это сигнал для тех, у кого нет соглашения с нами, что они не имеют права получать доступ к данным Reddit. И также это сигнал для злоумышленников о том, что слово "разрешить" в robots.txt не означает и никогда не означало, что они могут использовать данные так, как им заблагорассудится», — заявил главный юрисконсульт компании Бен Ли.
Стандарт robots.txt был разработан на заре интернета, пишет The Verge. В первую очередь он давал разрешение поисковым системам, таким как Google, сканировать веб-сайт, чтобы индексировать его результаты. Последние 20 лет Google отправлял, в обмен на возможность сканирования, на сайт трафик, и это было выгодно обеим сторонам. Затем компании, занимающиеся искусственным интеллектом, стали использовать все данные, которые они могли найти в Сети, для обучения своих ИИ-моделей.