Мы с важной новостью: с 28 февраля 2025 года сервис Хабр Фриланс прекратит свою работу.

Купить услуги можно до 28 февраля 2025, но пополнить баланс уже нельзя. Если на вашем счете остались средства, вы можете потратить их на небольшие услуги — служба поддержки готова поделиться бонусами, на случай, если средств немного не хватает.
R50 1763153a14dd2598cd41c8b620cfa644
Программист

Автоматический парсер сайтов

Добавлено 03 окт 2016 в 15:22
О сервисе


Данный проект, точнее его "потомок" был создан для внутренних задач
компании и не планировалось выкладывать в публичный доступ. С каждым
новым заказом "добычи" контента мы усовершенствовали скрипт и со
временем стало ясно, что текущая структура имеет минусы. Производится
много монотонной работы, которая тратит значительное количество времени.
Решено было переписать парсер используя старые наработки, а сам проект
сделать простым но в тоже время функциональным.




После тестирования первых версий парсера сразу возникла идея сделать его
публичным, так как на наш взгляд настраивается парсер просто и
интуитивно понятно. Поменяли дизайн, придумали название, причесали
странички, скрыли непроверенные функции до следующих релизов.



Структура парсера

"Бендер" абстрактно разбит на 2 части, как и любая функция, это ввод и вывод.



Входные данные —

является частью проекта




Источник данных, правила сбора URL(исключения, ограничения),
рассчитывается контрольная сумма, проверяется на дубликат. В данном
блоке реализованы поля — это правило для поиска необходимых данных.
Правила поиска задается с помощью Xpath в крайних случаях можно
применить регулярные выражения. Результат поля можно проверить на
уникальность. Если результат является url, данный файл можно скачать.




Выходные данные —

реализовано через плагины





Плагин может быть вызван сразу после сохранения результата в базу данных
каждого url или при генерации через интерфейс парсера. В данный момент
мы активно разрабатываем плагины для популярных CMS.


https://pbender.ru/
9399d6ef42