Дописать пару фич на Python для BigARTM, сдать на Google Colab

500 руб. за проект
15 ноября 2022, 16:53 • 2 отклика • 68 просмотров
На GitHub есть NLP-библиотека - BigARTM (если впервые слышите о таком - это не ваш заказ - больше мороки будет чем профита). Там же, в README.md репозитория, есть пример кода (~15 строк), под заголовком:

Interactive Python interface

Код рабочий, на вход подается массив-список (List) текстов, на выходе получается список списков слов-тегов, описывающих тот или иной топик (тему, категорию), типа такого:

[
['edu','lines','subject','organization','cs','writes','university','article','cc','know'],
['key','chip','encryption','public','clipper','security','keys','access','use','government']
]
Нужно расширить код так, чтобы он:

1.

Нумеровал этот результат (это просто образец, если в Python можно сделать это как-то более органично - сделайте):

[
[1,['edu','lines','subject','organization','cs','writes','university','article','cc','know']],
[2,['key','chip','encryption','public','clipper','security','keys','access','use','government']]
] 2. На основе алгоритма из этого примера нужно добавить к изначальной коллекции текстов, данные категории, И номер категории, и список тегов, то есть получится что-то вроде:

[
['Text1 many words...',[1,['edu','lines','subject','organization','cs','writes','university','article','cc','know']]],
['Text2 many words...',[2,['key','chip','encryption','public','clipper','security','keys','access','use','government']]]
] Важно: это должны быть наиболее релевантные категории, и релевантность должны выводиться из общей логики кода.

3. Принимать на вход новый текст, подобный текстам из исходной коллекции, и относить его к одной из вышеприведенных категорий, на основе общей логики.

Повторюсь: если вы в этом разбираетесь - вы понимаете что тут требуется, и реализация труда не составит. Если видите что можно сделать как-то лучше - предложите. По деньгам тоже обсуждаемо, но если это ваше постоянное занятие - больше получаса у вас это не займет, я исхожу из этого.

Результат должен без проблем запускаться в Google Colab (в начале там пропишите ! pip install bigartm)

В предложении сразу напишите насколько вам знакома тема NLP вообще и BigARTM в частности.

Если можете реализовать эту же задачу, используя BertTopic (или что-то еще) - тоже напишите.