ИИ «VK Видео» распознает профессиональные термины и мемы для субтитров
За последний месяц на платформе «VK Видео» на 28 % расширилась доля пользователей, применяющих в веб-версии функцию субтитров. Уже 11 % всей аудитории сервиса включают при просмотре видеороликов субтитры. Это неудивительно, так как «VK Видео» внедрил новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте. Благодаря этому точность анализа и расшифровки улучшилась на 25 %.
Нейросети тоже внесли свой вклад в улучшение распознавания речи, освоив уже тысячи новых слов, среди которых много профессиональных терминов, имен собственных, акронимов (аббревиатур), а также мемов. В ближайшей перспективе нейросети научатся разделять на отдельные реплики речь разных спикеров.
Формирование субтитров происходит с помощью ML-моделей – они создают текст и расставляют знаки препинания, синхронизируют его с видео. Обработка аудиопотока для повышения точности проводится в несколько этапов. Прежде всего нейросетью исключаются посторонние шумы, распознается речь, которая превращается в набор фраз. Модели пунктуации и денормализации приводят текст в читабельный вид. Далее ИИ полученный текст синхронизирует с аудиодорожкой.
Востребованность субтитров очевидна. Функция помогает людям с нарушением слуха, она необходима в тех случаях, когда просмотр видео ведется при выключенном по необходимости звуке.
Источник: CNews