Парсинг web archive

2 500 руб. за проект
22 июня 2022, 14:27 • 2 отклика • 23 просмотра

Заходим на http://web.archive.org
Берем домен из txt списка в аттаче (domeny.txt).
Ищем все сохраненные копии главной страницы сайта за все историческое время
У одной и той же страницы может быть несколько копий за разное время. Парсим все копии.
Спарсить контент, title; description; h1

Сохраняем на выход:
Создаем файл с названием год.месяц.день (пример 20220412)
В него складываем спаршенные данные в формате domeny_na_vyhod.txt
Файлы