Новости по-русски

Google создает языковую модель на 1000 языков и уже успешно ее применяет

В прошлом ноябре Google объявила о планах по созданию языковой модели, поддерживающей 1000 самых распространенных языков мира, которую назвала Универсальной языковой моделью (Universal Speech Model, USM). Разработчики описывают ее как «семейство передовых языковых моделей» с двумя миллиардами параметров, прошедших обучение на 12 млн часах речи и 28 млрд предложений на 300 с лишним языках. На некоторых из языков этой тысячи говорят менее 20 млн человек, отмечают авторы.

Эту модель уже применяет YouTube для автоматического создания субтитров и распознания речи. Она распознает и переводит с ряда языков, в том числе, не только с английского и китайского, но и с амхарского, себуано, азербайджанского и многих других. Сейчас USM поддерживает свыше 100 языков и станет основой для создания еще более обширной системы.

В отчете, опубликованном в https://ai.googleblog.com/2023/03/universal-speech-model-usm... Google, говорится, что использование большого непомеченного многоязычного набора данных для предварительного обучения программы кодирования модели и тонкой настройки с помощью меньшего набора данных позволяет работать даже с редкими языками. Более того, уникальный процесс обучения эффективно адаптируется к новым языкам и данным.

Исследователи продемонстрировали эффективность предварительно обученной программы на примере создания субтитров в YouTube. Набор данных включал 73 языка и в среднем менее 3000 часов записей на один язык. Несмотря на эти ограничения, модель показала средний коэффициент ошибок менее 30%. Такого успеха команда Google прежде не достигала.

Одним из направлений развития этой технологии могли бы стать очки дополненной реальности вроде тех, которое Google показывала на прошлом I/O и которые в состоянии распознать иностранную речь и перевести ее в синхронном режиме. Виртуальный текст субтитров возникает перед глазами. Правда, пока технология не доработана, что доказала неверная интерпретация системой арабского языка, которая произошла во время прошлой конференции.

В конце января Google https://hightech.plus/2023/01/30/ii-model-musiclm-ot-google-... исследование о системе MusicLM, которая создает музыку в любом жанре по текстовым описаниям. MusicLM использует обширную обучающую базу данных из 280 000 часов музыки и умеет писать композиции по абстрактным описаниям. Но ИИ-модель недоступна для пользователей из-за сложностей с авторскими правами.

 

Читайте на 123ru.net