Голосовой чат-бот - это ассистент, обученных на ваших данных, который может общаться с пользователем голосом. Он может как обмениваться голосовыми сообщениями, так и общаться в реальном времени. Я сделал реализацию как на API-сервисах, так и полностью на своём железе. Если запускать на своих видеокартах, то использует самый быстрый способ ускорения нейронных сетей на CUDA - tensorRT и tensorRT-LLM, а для развертывания triton-сервер. Так, для транскрибации разворачивается whisper, а для ассистента используется llama-3 или mistral. Для того чтобы использовать данные пользователя, делается дообучение модели или ассистент строится на RAG-системе. Для синтеза использует лучший open source вариант - XTTS v2. Таким образом, имеется возможность создавать быстрых и качественных голосовых ботов на своих локальных мощностях, то есть не оплачивая какие-либо сторонние сервисы.