Парсинг web.archive.org

Цена договорная

03 апреля 2020, 08:07 • 11 откликов • 107 просмотров

Парсинг без обработки.
Заходим на http://web.archive.org
Берем домен из txt списка в аттаче
Ищем все сохраненные копии всех страниц сайта за все историческое время «Сохраненски_1.png»
У одной и той же страницы может быть несколько копий за разное время.
Открываем копию каждой страницы «Сохраненски_2.png»:
-сохраняем эту html копию (Берем только html, .jpeg, .jpg, png, bnp)
-собираем ВСЕ внутренние ссылки с копии этой страницы, проверяем наличие собранных ссылок в копии web.archive.org, если есть сохраняем ее.

При обходе в веб ахиве есть календарь дат, есть пустые даты т.е на эту дату нет сохраненной копии, есть выделения дат разными цветами синий, серый, желтый нас интересуют только синие даты – это 200 ответ, даты других цветов это страницы это стр с ошибками 404, 304 , 301 и т.д

Сайты не большие, это все сайты – визитки. Если надо есть антигейт.

Сохраняем на выход:
Создаем папку с названием домена вида site.ru
В нее складываем html страницы домена с именем вида:
site.ru_url-staranicy_12345678910.html
" site.ru " домен
"url-staranicy" внутрений урл страница
id "12345678910" версия страницы web.archive.org (на скрине обозначено где брать этот id)
Картинки (.jpeg, .jpg, png, bnp) тоже сложить в папку с названием домена имена присвоить также.
Разбиваем весь контент страницы (только текст без ссылок) на фрагменты, любое из условий новая строка: 1. точка, 2. восклицательный знак, 3. знак вопроса 4. перенос строки, получившиеся фрагменты складываем в таблицу, формат домены на выход.

Стек любой на ваше усмотрение, код не нужен.
Цена, сроки при отклике.

Файлы

Дмитрий + 5 часов к Москве

Заказчик

5 лет назад

Nikita Efremov

Фрилансер

Точность ТЗ просто на высоте, а если есть вопросы то всегда отвечает (быстро)

5 лет назад

Войдите или зарегистрируйтесь, чтобы откликаться на заказы