Реализовать потоковое распознавание речи в канале Asterisk через Kaldi

Цена договорная
20 февраля 2021, 18:14 • 2 отклика • 22 просмотра
Заинтересован в услугах по разработке приложения, с помощью которого возможно вести потоковое распознавание речи в канале Asterisk PBX, применяя в качестве движка перевода голоса в текст комбинацию Kaldi и сервера Vosk (https://github.com/alphacep/vosk-server). Данное приложение, запускаемое через dialplan сервера телефонии, должно решать следующие задачи:
1) фиксировать получение вызова в канале при выполнении приложения Dial()
2) начиная с первой фразы, произнесённой в рамках диалога, направлять поток в модуль распознавания, реализованный в виде докеризованного сервера Vosk с заранее настроенной STT-системой (Speech-to-Text). Для интеграции Kaldi/Vosk в ядро Asterisk используется модуль, доступный в репозитории https://github.com/alphacep/vosk-asterisk
3) передавать файлы, полученные в ходе распознавания, на HTTP-сервер для последующей обработки содержимого (сама обработка к текущему заказу не относится);
4) поддерживать потоковый ввод данных в модуль ASR до произнесения последней фразы в контексте диалога.
Итог выполнения всех этапов - текстовый файл, размещённый на HTTP-сервере и содержащий результаты распознавания всех фраз, сказанных в ходе разговора.
По моим предположениям (исходя из поиска инфы в интернете), для создания такой проги нужны знания ARI, само приложение вызывается в dialplan через Stasis. В своё время тема была поднята в одном из вопросов на Stack Overflow (https://stackoverflow.com/questions/56957320/how-t...) - возможно, пригодится для однозначного понимания сути всего заказанного. Без приоритетных языков для разработки: поскольку очевидных вариантов не так и много (Perl/Python/Java и т.д.), спокойно адаптируемся под исполнителя.
К сроку и стоимости выполнения перейдём после отклика.