Блог сайта «Газета.ru»

NYT: ИИ столкнулся с ограничением в виде нехватки открытых данных для обучения

Задача развития искусственного интеллекта сталкивается с проблемой ограничения доступа к данным. Согласно исследованию MIT, проведенному в рамках проекта Data Provenance Initiative, многие важные источники интернета начали ограничивать использование их данных. Это может отрицательно повлиять на обучение мощных систем ИИ. Об этом сообщает издание New York Times (NYT).

В ходе анализа более 14 тыс. доменов, использующихся в трех основных базах данных для обучения ИИ, была выявлена существенная тенденция к "кризису согласия". Оказалось, что около 5% всех данных и 25% самых ценных данных уже ограничены протоколом "исключения роботов" (Robots Exclusion Protocol), который позволяет владельцам сайтов блокировать автоматизированную сборку данных.

Кроме того, почти 45% данных из набора данных C4 теперь ограничены условиями обслуживания веб-сайтов. Новая политика ограничений будет касаться не только тех компаний, которые разрабатывают ИИ, но и ученых, исследователей и некоммерческих организаций, использующих веб-данные.

 

Читайте на 123ru.net