Подразделение Alibaba представило ИИ-модель для идеального дубляжа фильмов
Fun-CineForge преодолевает четыре ключевых барьера в кинопроизводстве: синхронизацию губ, эмоциональную выразительность, последовательность озвучивания персонажей и точное временное выравнивание, даже когда говорящий скрыт или отсутствует в кадре. Это позволяет озвучивать сцены с участием нескольких персонажей без потери целостности диалога.
Модель использует высококачественный набор данных CineDub, построенный на основе более 350 китайских и английских фильмов и телесериалов. Автоматизированный процесс его создания опирается на метод «цепочки мыслей», который снижает частоту ошибок транскрипции китайских и английских текстов до 1–2% и уменьшает ошибки разделения говорящих до 1,2%.
Fun-CineForge использует архитектуру слияния четырех модальностей: визуальную (форма и выражение губ), текстовую (эмоции диалогов), звуковую (голосовые эталоны) и временную, которая точно контролирует, когда должна появляться речь и какой персонаж говорит. В результате звук синхронизируется с изображением даже в сложных сценах, где лица не видны, что было недоступно традиционным моделям.
Результаты экспериментов показывают, что модель превосходит базовые системы, такие как DeepDubber-V1, по частоте ошибок распознавания слов, точности синхронизации губ и сходству голосов. Fun-CineForge стала первой моделью, поддерживающей сцены диалогов двух и более людей с сохранением постоянного тембра голоса и точной временной синхронизацией.
Кроме того, модель стабильно работает с видеоклипами длиной до 30 секунд, демонстрируя стабильность воспроизведения и эмоциональной выразительности. Это открывает новые возможности для дубляжа сложных сцен, мультфильмов и анимационных проектов, где ранее точное соответствие голоса и движения губ было затруднительно.
Открытый исходный код Fun-CineForge позволяет разработчикам использовать модель в собственных проектах, совершенствовать алгоритмы и создавать более естественное, эмоционально насыщенное озвучивание для фильмов и анимации, сокращая разрыв между синтезированной речью и визуальной частью сцены.