Запустить парсер на хероку и запустить EDA tool на спарсенных данных

1 700 руб. за проект
24 августа 2021, 20:46 • 0 откликов • 52 просмотра
Требуется аналитик со знанием питона запустить парсер отсюда
GitHub - tososomaru/scraping-landingfolio

А затем запустить ЕДА (https://en.wikipedia.org/wiki/Exploratory_data_ana...) tool и проанализировать наиболее часто встречающиеся комбинации цветов, шрифтов, размеров шрифтов итд.

Описание парсера ниже:


Программа должна спарсить все данные с https://www.landingfolio.com/
В таблицу 0

И заполнить

таблицу 1 (https://docs.google.com/spreadsheets/d/1caTvuMTJ3gM2RaWmC7twtAMdhAKqj9oEvgFTDYSFtLs/edit?usp=sharing) и

таблицу 2 (https://docs.google.com/spreadsheets/d/1luKTuUHvb853QgLyOjKN0kcgJNsmrdT3TjCZxRZDcw4/edit?usp=sharing)

для каждого сайта, который она посещает, самостоятельно выбирая их на сайте https://www.landingfolio.com/.


Суть заполнения таблицы 1 -

Программа записывает в 1 колонку URL сайта, который она посещает.

Программа должна парсить страницу в 10 разрешениях (указывается только ширина экрана в пикселях). Вот эти ширины в пикселях: 360, 800, 1024, 1280, 1366, 1440, 1600, 1920, 2560, 3440).

На каждое разрешение берутся все теги 7 типов (h1,h2,h3,h4, p, div, span). По этим тегам составляется статистика по 5 свойствам этого тега (font family, font size(px) font weight, font color и percentage). Percentage обозначает процентное соотношения количества символов на сайте, к примеру на сайте 700 символов этого тега с одинаковыми свойствами и занимают они 50% от общего количества символов (1400) тогда программа пишет 0.5 (700 chars).

Если в пределах одного типа тега существует несколько тегов с разными стилями, то на каждый из них заводится отдельная строка и считается отдельно от тегов такого же типа


Суть заполнения таблицы 2 -

Программа записывает в 1 колонку URL сайта, который она посещает.

Программа должна делать скриншоты страницы в 10 разрешениях (указывается только ширина экрана в пикселях). Вот эти ширины в пикселях: 360, 800, 1024, 1280, 1366, 1440, 1600, 1920, 2560, 3440).

На каждом скриншоте высчитываются 5 наиболее часто встречающихся цветов и остальные цвета.

По каждому найденному цвету записывается процентное соотношение этого цвета на скриншоте.

Например, черный цвет (#000000) встречается на странице в 500 пикселях из 1000, тогда мы записываем в таблицу #000000 0.5