Доработка VoiceAssistant (голосовой помощник)

10 000 руб. за проект

19 февраля 2025, 18:32 • 1 отклик • 40 просмотров

ВНИМАНИЕ! Проект для Windows
1. Требуется внедрить в проект голосового помощника сверточную нейронную сеть для классификации голоса(хозяин/не хозяин) - она уже сделана, сейчас работает в отдельном проекте на Python, её нужно интегрировать в основной проект голосового помощника
1.1 В основной класс голосового ассистента(VoiceAssistant) добавить:
атрибут для хранения модели классификации
метод для проверки является ли пользователь владельцем
- в метод on_push_to_talk перед распознаванием речи добавитьвызов метода для проверки является ли пользователь владельцем
- если пользователь не является владельцем, то прерываем дальнейшую обработку запроса
1.2. Добавление функционала записи голоса:
- создать метод для записи голоса пользователя
- добавить команду (например "запиши мой голос") в словарь cmds и при получении этой команды будем записывать голос и сохранять его в папку для хранения аудио данных хозяина
1.3. Процесс работы:
- при запуске программы загрузить предварительно обученную модель, где хранятся обученные модели)
- перед обработкой каждого голосового запроса проверяем является ли говорящий владельцем(если нет, то игнорируем запрос)
- владелец может в любой момент добавить новые примеры своего голоса через специальную команду в cmds
1.4. Обучение модели:
- после накопления достаточного количества новых записей владелец может запустить процесс обучения - для этого используется скрипт teacher.py из классификатора
1.5. Единственный нюанс, например когда говорит хозяин и на фоне его говорит другой человек
Возможно сделать чтобы он слушал только хозяина?
Предложения: 1.5.1 перед проверкой голоса владельца можно добавить доп функцию обработки аудио:
1.5.1.1 VAD для проверки наличия других голосов
1.5.1.2 если обнаружено больше одного, то например выделять самый громкий и его считать за владельца
1.5.2 Добавить в обучающий датасет примеров, где голос 'владельца' записан с фоновыми голосами. Либо добавить постобработку аудио для удаления('очистки') этих фоновых голосов
2.Добавить многопоточность, чтобы 1 поток отвечал за основное окошко, 2 поток захватывал голос с микрофона, последующие потоки - выполняли команды из словаря cmd и работали с гпт. (Использовать multiprocessing)
3. Добавить оффлайн модель гпт русскую для видеокарты объемом видеопамяти до 8ГБ
4. Сделать простенький интерфейс, где слева будет консоль, а справа кнопки, отвечающие за смены моделей, а также выполнения команд из словаря cmd
5. Собрать exe
Ищу ответственного и опытного разработчика Python, кому близка и интересна данная тематика.

Войдите или зарегистрируйтесь, чтобы откликаться на заказы