Доработать скрипт на Python по обработке звука

1 200 руб. за проект
25 марта 2021, 16:50 • 2 отклика • 59 просмотров
Нужно переделать код

https://github.com/ZirumAndBigBro/Audio-transcriptor-russian-

, чтобы он умел:

1) Принимать аргумент: входящая директория(parent_dir), где структура: каталог-аудиофайл, каталог-аудиофайл и тд
2) Сохранять каждого диктора (один входящий файл (каждый диктор в отдельном каталоге)) в свою отдельную директорию, сохраняя в эту же директорию meta.csv
3)Работать в многопотоке с прокси

Пример структуры датасета, который нужен на выходе

https://drive.google.com/open?id=1OjbQMW3wLgVUNUTZ...

Структура данных на входе:
parent_dir/md5/md5.mp3
parent_dir/md5/md5.mp3
parent_dir/md5/md5.mp3
1 каталог - 1 диктор

Где, md5 - название файла в виде хеша
Примечание - текущие аудиофайлы были получены путем объединения множества битых/недокаченных аудиофайлов. Есть наработки того, что описано выше, нужно решить проблему с ошибкой и прерыванием скрипта. Проект open-source нужен для разметки датасета