Задача по мультиклассификации текста

2 000 руб.за час
03 сентября 2022, 16:34 • 8 откликов • 77 просмотров
Постановка задачи
Необходимо по названию, описанию и проставленного тега категории сопоставить запись курса с нашим списком категорий.

Входные данные
На вход поступает массив записей курсов, в которых указаны название курса, описание, и прописаны категории (в некоторых случаях, совпадающие с нашими). Задача осложняется тем, что категории образуют трехуровневое древо с типом связи родитель-ребенок: категории, подкатегории и дисциплина. Также выборка относительно небольшая (3256 значения), так что возможно потребуется какая-либо аугментация (см. скрин 1).

Пример таргетов-категорий с датасетов (см. скрин 2):
Если реализовывать через scikit-learn, то скорее всего необходимо использовать Multiclass-multioutputclassification т.е. в качестве таргета поставить список из чисел https://scikit-learn.org/stable/modules/multiclass.html

Возможно стоит применить решение на основе сверточных нейросетей. Также буду рад выслушать какие-либо предложения и замечания, касательно поставленной задачи.

Детали реализации
Реализовать модель можно либо ноутбуке Jupyter, либо в .py с stdin/stdout (как вам удобнее).
Точность классификации должна составлять минимум 85%.

Файлы