О сервисе Данный проект, точнее его "потомок" был создан для внутренних задач
компании и не планировалось выкладывать в публичный доступ. С каждым
новым заказом "добычи" контента мы усовершенствовали скрипт и со
временем стало ясно, что текущая структура имеет минусы. Производится
много монотонной работы, которая тратит значительное количество времени.
Решено было переписать парсер используя старые наработки, а сам проект
сделать простым но в тоже время функциональным.
После тестирования первых версий парсера сразу возникла идея сделать его
публичным, так как на наш взгляд настраивается парсер просто и
интуитивно понятно. Поменяли дизайн, придумали название, причесали
странички, скрыли непроверенные функции до следующих релизов.
Структура парсера
"Бендер" абстрактно разбит на 2 части, как и любая функция, это ввод и вывод.
Входные данные —
является частью проекта
Источник данных, правила сбора URL(исключения, ограничения),
рассчитывается контрольная сумма, проверяется на дубликат. В данном
блоке реализованы поля — это правило для поиска необходимых данных.
Правила поиска задается с помощью Xpath в крайних случаях можно
применить регулярные выражения. Результат поля можно проверить на
уникальность. Если результат является url, данный файл можно скачать.
Выходные данные —
реализовано через плагины Плагин может быть вызван сразу после сохранения результата в базу данных
каждого url или при генерации через интерфейс парсера. В данный момент
мы активно разрабатываем плагины для популярных CMS.
https://pbender.ru/