Доработка кода на Python

Есть код, который транскрибирует аудио и проводит алгоритм по спикерской диаризации, с помощью библиотеки vosk\pyannote.

Есть дополнительно код, который формирует слепок голоса в формате .npy. Или ваш вариант.

Не совсем пойму как добавить блок по слепку голоса в код, чтобы отображал данные, к примеру:
Маша: Привет
User1: Привет
User2: Как дела?
Маша: Неплохо

У меня сейчас:
User0: Привет
User1: Привет
User2: Как дела?
User0: Неплохо

Читайте на 123ru.net