Доработать голосового помощника Python

10 000 руб. за проект

28 января 2025, 10:23 • 9 откликов • 72 просмотра

В проекте на Python имеются: ASR (2 модели оффлайн, 1 онлайн), выбор языковых моделей через g4f при помощи провайдера (онлайн), TTS модели для озвучки ответа GPT (2 модели оффлайн, 1 онлайн). Голосовой помощник умеет выполнять запросы пользователя в браузере с помощью Selenium, управлять файлами компьютера при помощи GPT , открывать программы, искать по файлам, выполнять элементы навигации: вперед, назад, приближать, отдалять, напоминать, записывать в заметки. На данный момент запросы гпт выполняются в отдельных потоках при помощи библиотеки threading.
Необходимо решить задачу классификации голоса (берём запись конкретного голоса и записи нескольких других голосов на одном и том же тексте. Думаю длинной до 5 минут будет достаточно. Эти записи нарезаются программой на небольшие куски и из них с помощью быстрого преобразования Фурье извлекаются признаки, по которым мы будем пытаться обучить модель классификации. Для решения необходимо использовать сверточную нейронную сеть для классификации изображений. Можно и ей эти признаки подсунуть)
Необходимо внедрить в проект голосового помощника сделанный выше классификатор, а также оффлайн русскую языковую модель gpt (аналог), которая будет работать без интернета.
Далее нужно разбить все по потокам: 1 - основной поток с окошком
2 - голос захватывает и распознает
3,4,5.... - работа с gpt (использовать popen, multiprocessing).
Собрать проект в exe и сделать простенький лаконичный интерфейс заместо консольного.
Ищу ответственного разработчика на Python, которому близка данная тематика.
Срок 2-3 недели - не затягивать с проектом.

Войдите или зарегистрируйтесь, чтобы откликаться на заказы