Проверить Python библиотеку для распознавания голосов pyAudioAnalysis

14.09.2024 17:11

«Фрилансим»

Здравствуйте.
Сейчас через Whisper (нейросеть для перевода речи в текст) получается расшифровывать аудио/видео в текст. Но не хватает информации о том, кто в диалоге говорит тот или иной текст.

В связи с этим задачи:

1) Через pyAudioAnalysis научится делать аудио / видео на сегменты с разделением по говорящим
> просто по ролям
> с подписью имен (для этого предварительно загружая образцы голосов и подписывая имена)

* Приложить ссылку на файл Google Colab с кодом.
* Исходники для тестов.
1. Видео с 2 голосами https://drive.google.com/file/d/1yaLqflCfKPAT7XP2q...
2. Каждый голос из видео по отдельности, для обучения pyAudioAnalysis:
- Голос 1 https://drive.google.com/file/d/1k9zUC1VP88-nsOZtx...
- Голос 2 https://drive.google.com/file/d/1AcH2xa4MVdZY36SKj...
* Если нужно можете использовать другу библиотеку вместо pyAudioAnalysis для распознавания голосов.

2) Переписать код на Python, чтобы соединить результат pyAudioAnalysis и Whisper. Т.е. в Whisper мы передадим сегменты голосов и имена говорящих

* Приложить ссылку на файл Google Colab с кодом.
* Уже есть скрипт, который через Whisper делает расшифровку аудио/видео файла в текст https://buildin.ai/share/f98a02fd-32be-4209-9dc6-0bd0f54885a2?code=3HYNU9[BuildIn.AI]

--

За хорошо выполненное задание напишу положительный отзыв.

Проверить Python библиотеку для распознавания голосов pyAudioAnalysis

Читайте на 123ru.net

Модные новости

Авто Новости

VIP-тусовка