Доработать скрипт на Python для подсчета вхождений слов в Title, Descr

12 500 руб. за проект
16 июля 2022, 17:58 • 22 отклика • 184 просмотра
Есть готовый, работающий скрипт на Python (вот https://colab.research.google.com/drive/17sodRyJm3rXanOaTWnOPqc3za_yxEQ-x#scrollTo=CStyBM1YELWg), который обрабатывает 2 файла.
Первый файл (Файл_1_ключевые_фразы) содержит ключевые фразы и URL адреса страниц сайта, для которых они предназначены.
Второй файл (Файл_2_парсинг) содержит URL адреса страниц и заранее спарсеные с них Title, Meta Description, H1, Body text.
После отработки скрипта автоматически создается новый файл (Результат работы скрипта), содержащий результаты проверки наличия ключевых слов в Title, Meta Description, H1, Body text в формате True - фраза присутствует и False - фраза не найдена.

Требования:
1. Каждая ключевая фраза должна быть на отдельной строке, как в исходном файле Файл_1_ключевые_фразы. На данный момент не устраивает то, что ключевый фразы раскидываются по отдельным столбцам. Пример во вложении (файл Пример форматирования, в нем 2 листа).
2. Если фраза целиком не входит в соответствующую текстовую зону (Title, Meta Description и т.п.), то должны отображаться слова из фразы, которые отсутствуют (не обнаружены) в текстовой зоне.
3. Если фраза и или слово найдено, должно отображаться количество раз, которое фраза или слово встречаются в соответтствующей текстовой зоне страницы.
4. Добавить заполнение поля "Recommendation" на основе следующей логики:
Самая высокочастотная фраза всегда добавляется в рекомендацию в Title, если она не найдена в текстовых зонах.
Для одной и той же страницы рекомендуются к добавлению все слова из остальных фраз для этой страницы, кроме слов, встечающихся в самой высокочастотной фразе, до тех пор, пока суммарная длина самой высокочастотной фразы и отдельных слов меньше или равна 65 символам.
Аналогичная логика для Meta Description и Body с другими лимитами.







Опционально:
- Исключить из проверки предлоги, находящиеся в проверяемых фразах (можно добавить список стоп-слов)
- Добавить лемматизацию фраз и текстовых зон при проверке.



Файлы