Парсинг web.archive.org
Цена договорная
Парсинг без обработки.
Заходим на http://web.archive.org
Берем домен из txt списка в аттаче
Ищем все сохраненные копии всех страниц сайта за все историческое время «Сохраненски_1.png»
У одной и той же страницы может быть несколько копий за разное время.
Открываем копию каждой страницы «Сохраненски_2.png»:
-сохраняем эту html копию (Берем только html, .jpeg, .jpg, png, bnp)
-собираем ВСЕ внутренние ссылки с копии этой страницы, проверяем наличие собранных ссылок в копии web.archive.org, если есть сохраняем ее.
При обходе в веб ахиве есть календарь дат, есть пустые даты т.е на эту дату нет сохраненной копии, есть выделения дат разными цветами синий, серый, желтый нас интересуют только синие даты – это 200 ответ, даты других цветов это страницы это стр с ошибками 404, 304 , 301 и т.д
Сайты не большие, это все сайты – визитки. Если надо есть антигейт.
Сохраняем на выход:
Создаем папку с названием домена вида site.ru
В нее складываем html страницы домена с именем вида:
site.ru_url-staranicy_12345678910.html
" site.ru " домен
"url-staranicy" внутрений урл страница
id "12345678910" версия страницы web.archive.org (на скрине обозначено где брать этот id)
Картинки (.jpeg, .jpg, png, bnp) тоже сложить в папку с названием домена имена присвоить также.
Разбиваем весь контент страницы (только текст без ссылок) на фрагменты, любое из условий новая строка: 1. точка, 2. восклицательный знак, 3. знак вопроса 4. перенос строки, получившиеся фрагменты складываем в таблицу, формат домены на выход.
Стек любой на ваше усмотрение, код не нужен.
Цена, сроки при отклике.
Заходим на http://web.archive.org
Берем домен из txt списка в аттаче
Ищем все сохраненные копии всех страниц сайта за все историческое время «Сохраненски_1.png»
У одной и той же страницы может быть несколько копий за разное время.
Открываем копию каждой страницы «Сохраненски_2.png»:
-сохраняем эту html копию (Берем только html, .jpeg, .jpg, png, bnp)
-собираем ВСЕ внутренние ссылки с копии этой страницы, проверяем наличие собранных ссылок в копии web.archive.org, если есть сохраняем ее.
При обходе в веб ахиве есть календарь дат, есть пустые даты т.е на эту дату нет сохраненной копии, есть выделения дат разными цветами синий, серый, желтый нас интересуют только синие даты – это 200 ответ, даты других цветов это страницы это стр с ошибками 404, 304 , 301 и т.д
Сайты не большие, это все сайты – визитки. Если надо есть антигейт.
Сохраняем на выход:
Создаем папку с названием домена вида site.ru
В нее складываем html страницы домена с именем вида:
site.ru_url-staranicy_12345678910.html
" site.ru " домен
"url-staranicy" внутрений урл страница
id "12345678910" версия страницы web.archive.org (на скрине обозначено где брать этот id)
Картинки (.jpeg, .jpg, png, bnp) тоже сложить в папку с названием домена имена присвоить также.
Разбиваем весь контент страницы (только текст без ссылок) на фрагменты, любое из условий новая строка: 1. точка, 2. восклицательный знак, 3. знак вопроса 4. перенос строки, получившиеся фрагменты складываем в таблицу, формат домены на выход.
Стек любой на ваше усмотрение, код не нужен.
Цена, сроки при отклике.
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.