Парсинг web.archive.org

Цена договорная
03 апреля 2020, 08:07 • 11 откликов • 103 просмотра
Парсинг без обработки.
Заходим на http://web.archive.org
Берем домен из txt списка в аттаче
Ищем все сохраненные копии всех страниц сайта за все историческое время «Сохраненски_1.png»
У одной и той же страницы может быть несколько копий за разное время.
Открываем копию каждой страницы «Сохраненски_2.png»:
-сохраняем эту html копию (Берем только html, .jpeg, .jpg, png, bnp)
-собираем ВСЕ внутренние ссылки с копии этой страницы, проверяем наличие собранных ссылок в копии web.archive.org, если есть сохраняем ее.

При обходе в веб ахиве есть календарь дат, есть пустые даты т.е на эту дату нет сохраненной копии, есть выделения дат разными цветами синий, серый, желтый нас интересуют только синие даты – это 200 ответ, даты других цветов это страницы это стр с ошибками 404, 304 , 301 и т.д

Сайты не большие, это все сайты – визитки. Если надо есть антигейт.

Сохраняем на выход:
Создаем папку с названием домена вида site.ru
В нее складываем html страницы домена с именем вида:
site.ru_url-staranicy_12345678910.html
" site.ru " домен
"url-staranicy" внутрений урл страница
id "12345678910" версия страницы web.archive.org (на скрине обозначено где брать этот id)
Картинки (.jpeg, .jpg, png, bnp) тоже сложить в папку с названием домена имена присвоить также.
Разбиваем весь контент страницы (только текст без ссылок) на фрагменты, любое из условий новая строка: 1. точка, 2. восклицательный знак, 3. знак вопроса 4. перенос строки, получившиеся фрагменты складываем в таблицу, формат домены на выход.

Стек любой на ваше усмотрение, код не нужен.
Цена, сроки при отклике.
Файлы
Отзывы
R50 53bf008722630809cf40a0b7a99dc01b
Заказчик
 
10 месяцев назад
R50 2877bc4990b3c47a423f8bec4a1cfe34
Фрилансер
Точность ТЗ просто на высоте, а если есть вопросы то всегда отвечает (быстро)
11 месяцев назад