Спарсить данные с web.archive

Цена договорная

14 июля 2022, 13:05 • 6 откликов • 63 просмотра

парсинг данных

Заказ взят в работу!
Берем домен и столбца «Е» вбиваем в https://web.archive.org смотрим историю по годам по этому домену. Считаем ТОЛЬКО к-во синих точек (это 200 ответы ) за каждый год. Выбираем год с набольшим к-вом синих точек. В этом году берем первую синюю точку, открываем копию страницы в этой точке и сохраняем html страничку. (Картинка история веб арихива.png)
Это нужно т.к иногда на сайтах висят заглушки с нужным 200 ответом но с другим неподходящим контентом, когда на сайт есть трафик и он работает нормально вебахив делает копии чаще.
Берем html страничку (без css/js файлов) с доменов из списка, на один домен только одна главная страница.
Из сохраненных страниц собрать и сохранить абзацы с текстом. Если абзац 270 и более символов, то сохраняем этот абзац, если менее 270 символов игнорируем текст. (Картинка «принцип определения текста.png»)
Положить собранные абзацы (только 270 и более символов) в табличку где каждый абзац текста своя ячейка (табличка.xlsx). Данных мало, всего 879 доменов.
Пожалуйста, откликайтесь на заказ только имея опыт парсинга.
Если нужны прокси, могу предоставить.
При отклике: цена, сроки

Файлы

Дмитрий + 5 часов к Москве

Заказчик

Рекомендую.

2 года назад

Вячеслав Ермолаев

Фрилансер

2 года назад

Войдите или зарегистрируйтесь, чтобы откликаться на заказы