В России создали универсальную систему машинного зрения: для роботов и не только
Вчера, 4 января, информационное издание «ТАСС» со ссылкой на пресс-службу Института искусственного интеллекта AIRI сообщило, что российские специалисты успешно создали первую в своём роде универсальную систему машинного зрения, которая может распознавать трёхмерные объекты и, что немаловажно, одинаково эффективно проходить любые наборы тестов. Авторы проекта считают, что их разработку можно задействовать в области робототехники, а также для работы с дополненной реальностью или выполнения процесса 3D-сканирования различных объектов.
Разработчики уникальной системы отмечают, что ранее исследователям приходилось создавать специальные модели с уникальным набором настроек для каждой конкретной задачи, связанной с распознаванием объектов. Естественно, это сильно усложняет и замедляет процесс разработки передовых решений, плюс данный подход существенно ограничивает сценарии применения готовых моделей.
Антон Конушин, руководитель научной группы «Пространственный интеллект» в Институте AIRI объяснил, что максимально количество объектов в пространстве, которые система может распознать, напрямую зависит от определённой сцены. При этом мультимодальные модели используют в качестве вводной информации объёмные модели, полученные в рамках сканирования помещения специальными датчиками глубины. К сожалению, на текущий момент наибольший набор этих данных содержит всего 7 тысяч сцен — это буквально капля в море, если сравнивать с миллионами и миллиардами изображений, которые задействованы в современных генеративных моделях.
Но российские исследователи придумали, как можно эту проблему нивелировать. Уникальный подход заключается в том, что новая модель искусственного интеллекта одинаково точно работает с различными наборами данных за счёт новейшей универсальной архитектуры нейронной сети, которую создали на базе «чистого» трансформера-кодировщика. И, по словам авторов проекта, эксперименты уже продемонстрировали, что российскую модель можно обучить работе с большим набором разнообразных данных, дабы система могла эффективно распознавать различные объекты в пространстве. Соответственно, в будущем отечественный проект позволит существенно ускорить процесс создания новых систем трёхмерного зрения.