Разработать скрипт группировки фраз

5 000 руб. за проект
08 июня 2022, 22:45 • 9 откликов • 110 просмотров
Добрый день. Необходим скрипт (желательно на python, perl или php) с таким же функционалом как в инструкции к программе
https://keyassort.com/instructions.html#instr2_2 (раздел кластеризация и миграция)

Постараюсь подробно описать все ниже.

Опишу функционал ниже
На вход подается CSV файл со столбцами и строками
  1. ключевая фраза
  2. адрес страницы сайта
Как правило, по одной фразе будет 10 ссылок в формате
фраза;ссылка1
фраза;ссылка2
и тд

Настройки программы:
  1. Тип кластеризации (soft, middle, hard)
  2. Сила кластеризации (1-10)
Принцип работы программы
Программа кластеризует (группирует) фразы на основе пересечений (похожести) и настроек программы, объединяя их в одну группу где есть похожие страницы сайтов.

Результат работы программы
При запуске скрипта образуются кластеры (группы фраз). Название кластера - фраза с наибольшим количеством слов в группе.

Если количество фраз в группе меньше двух, то название кластера и есть одна эта фраза.

Сохранение
1. В result.txt сохраняются строки, содержащие
название кластера|хэш кластера

2. В файлы шэх_кластера.txt добавляются остальные ключевые фразы группы (если они есть). Если фраз в группе нет, то файл не создается.

В итоге в подпапке программы должны быть файлы:
result.txt и файлы шэх_кластеров.txt с ключевыми фразами группы.