Выделение эмоционального фона из аудио диалога - не текст(Python)

5 000 руб. за проект
08 декабря 2024, 10:20 • 8 откликов • 105 просмотров
Выделение эмоционального фона через aniemore, но там сложности с тем чтобы после каждой фразы проставлять эмоциональный фон, пропускает фразу, хоть они длинной и не меньше 1 сек., или записывает все возможные варианты даже с маленьким весом.

Что нужно:

1) Выделять корректно эмоциональный фон корректно по фразам
2) Какие модели будем использовать? И можно ли их дообучить?

Как вариант можно использовать openSMILE или pyAudioAnalysis(более старые версии моделей).