Сделать систему по сбору и парсингу данных о доменных именах

Цена договорная • наличный расчёт, безналичный расчёт, электронные деньги
24 февраля 2019, 17:18 • 5 откликов • 60 просмотров
нужно сделать систему сбора данных по освобождающимся доменам, состоящую из
1) общей базы данных, в которой хранятся все данные и с которой работают все сервисы
база данных будет содержать обновляемый список доменов (большой, ~5млн строк), по которому сервисы собирают различные данные
2) сервис обновления списка доменов
- скачивает актуальный список доменов https://partner.r01.ru/zones/ru_domains.gz
- распаковывает, заливает во временную таблицу
- переносит в архив из основного списка доменов те домены, которых в актуальном скаченном списке нет (удалены)
- обновляет поля данных (оплачен до, истекает, делегирован и пр.) в основном списке данными из актуального списка.
3) сервис проверки размещенных на доменах сайтов, выбирающий домены из основного списка по определенным критериям и по каждому из них
- проверяющий, делегирован домен или нет (резолвится или нет), сохраняем ip адрес
- если резолвится, то отвечает HTTP 200ым кодом или редирект на другой домен (с учетом www), сохраняем куда редирект
- если 200 и без редиректа на другой домен, то проверяет отданную страницу по списку стоп-слов, сохраняем прошло проверку на стоп-слова или нет
4) сервис проверки доменов, прошедших сервис проверки на индексацию домена Яндексом, работающий через прокси сервис (сторонний, дам доступ) к yandex.xml
- сохраняет список сайтов, которые отдал Яндекс при поиске по ключу "%DOMAIN_NAME%"
- выполняет расчет рейтинга домена по формуле в зависимости от того, какие сайты в выдаче яндекса при поиске проверяемого домена
5) сервис проверки whois данных, работающий через список прокси, запрашивающий whois по доменам, прошедшим сервис проверки и сохраняющий его базу (нски, owner, registrar)

техническое решение на базе php/mysql, будет крутиться на отдельной впске.

обязателен опыт парсинга и написания скриптов, работающих по расписанию в параллельном режиме (в несколько процессов/потоков). обязательно умение работать самостоятельно без пошагового ТЗ.
Отзывы
Плюсы:
- код хороший
- оперативно разбирается в непонятном
- недорого

Минусы:
- делает не быстро (видимо мало времени на фриланс-заказы)
5 лет назад