Написать скрипт для граббинга нескольких сайтов
9 000 руб. за проект
•
безналичный расчёт, электронные деньги
Нужно написать скрипт на Php или Python который будет:
1) Загружать данные с трёх небольших сайтов досок объявлений (структура разных сайтов различна)
2) Сохранять данные в единообразном формате, вместе с изображениями, в базе данных (mysql / sqlite / postgresql, на ваш выбор)
Формат данных:
Таблица "раздел"
Сырой контент по возможности должен включать в себя контент страницы, из которого берутся данные раздела или объявления, без шапок и футеров которые не несут полезной информации.
Пожелания к реализации:
Реализовать некий базовый класс (или классы) граббера, который будет включать в себя основной обобщённый функционал (загрузка страниц, создание записей в БД, переименование файлов и т.д.), а от него уже наследуются классы конкретных грабберов для конкретных сайтов, каждый из которых (грабберов) будет уметь обрабатывать конкретный сайт.
Это, с одной стороны, снизит ваши трудозатраты, а с другой, даст возможность дальнейшего расширения.
Сайтов пока 3, адреса сообщу позже.
Защиты от грабберов скорее всего нет.
1) Загружать данные с трёх небольших сайтов досок объявлений (структура разных сайтов различна)
2) Сохранять данные в единообразном формате, вместе с изображениями, в базе данных (mysql / sqlite / postgresql, на ваш выбор)
Формат данных:
Таблица "раздел"
- id
- parent_id - ID родительского раздела (если есть)
- name - название раздела
- base_url - базовая ссылка (откуда взят раздел)
- raw_content - "сырой контент" собранный со страницы (в html)
- id
- folder_id - ID раздела (из таблицы "раздел")
- title - заголовок объявления
- base_url - базовая ссылка (откуда взято объявление)
- content - содержимое текста объявления
- contacts - контактные данные объявления в виде JSON
- raw_content - "сырой контент" собранный со страницы (в html)
Сырой контент по возможности должен включать в себя контент страницы, из которого берутся данные раздела или объявления, без шапок и футеров которые не несут полезной информации.
Пожелания к реализации:
Реализовать некий базовый класс (или классы) граббера, который будет включать в себя основной обобщённый функционал (загрузка страниц, создание записей в БД, переименование файлов и т.д.), а от него уже наследуются классы конкретных грабберов для конкретных сайтов, каждый из которых (грабберов) будет уметь обрабатывать конкретный сайт.
Это, с одной стороны, снизит ваши трудозатраты, а с другой, даст возможность дальнейшего расширения.
Сайтов пока 3, адреса сообщу позже.
Защиты от грабберов скорее всего нет.
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.
Все четко, уложился в оговоренные 2 дня, скрипт работает, код легко расширять на другие сайты.