Доработка кода на Python

2 000 руб. за проект
02 марта 2024, 23:22 • 0 откликов • 7 просмотров
Бюджет по заказу проставлен символичный, т.к. сложно оценить объём работ, если есть стоящие предложения, готов к обсуждению суммы.

Задача:
С около 50 микрофонов в режиме реального времени приходят аудио потоки, которые необходимо транскрибировать в онлайне и проверять на слова триггеры.

Что есть:
Есть написанный для данных целей код на Python с использованием библиотеки vosk, но столкнулся с тем, что набор необходимых слов не полный.

Вопросы:
1) Есть ли другие варианты библиотек с помощью которых можно в онлайн распознавать аудио с такого количества источников? PyTorch? Но это заново новую модель создавать свою?
2) Как можно переобучить модели vosk на основе новых аудио(это инструментарий Kaldi), с интерпретацией на русскоязычную модель(https://kaldi-asr.org/doc/tutorial.html).
3) Есть ли шумоподавление в vosk?