Консультация по архитектуре NLP-классификатора

Цена договорная
23 февраля 2023, 21:09 • 2 отклика • 39 просмотров
Необходима консультация по разработке архитектуры, которая выдаст приемлимые метрики классификатора NLP для приведенного датасета.

Классификатор определяет предметы по текстовым данным учебного курса (name, category_tags, article), а также главный предмет изучения для курса.

У одного курса может быть несколько предметов изучения, но лишь один главный

Таргеты:
SUBJECTS - список всех предметов курса (в категориальном виде)
PRIMARY_SUBJECT- главный предмет курса (в категориальном виде)

Проблемы/особенности, которые есть:
- Уникальных предметов-таргетов у нас 603 шт
- Датасет сильно не сбалансирован между предметами (от 1-2 до 1561 курсов на предмет)
- Датасет относительно небольшой (33000 значений)

Дополнительная инфорация:
Также предметы можно сгруппировать в иерархию вида: Категория(Category) -> Подкатегория(subcategory) -> Предмет(subject). Возможно определять сначала category, затем subcategory, а лишь потом subjects?

Сам датасет:
https://drive.google.com/file/d/1T1PAcgdF3t9HOc2YY...