R50 1763153a14dd2598cd41c8b620cfa644
Программист

Автоматический парсер сайтов

Добавлено 03 окт 2016 в 15:22
О сервисе


Данный проект, точнее его "потомок" был создан для внутренних задач
компании и не планировалось выкладывать в публичный доступ. С каждым
новым заказом "добычи" контента мы усовершенствовали скрипт и со
временем стало ясно, что текущая структура имеет минусы. Производится
много монотонной работы, которая тратит значительное количество времени.
Решено было переписать парсер используя старые наработки, а сам проект
сделать простым но в тоже время функциональным.




После тестирования первых версий парсера сразу возникла идея сделать его
публичным, так как на наш взгляд настраивается парсер просто и
интуитивно понятно. Поменяли дизайн, придумали название, причесали
странички, скрыли непроверенные функции до следующих релизов.



Структура парсера

"Бендер" абстрактно разбит на 2 части, как и любая функция, это ввод и вывод.



Входные данные —

является частью проекта




Источник данных, правила сбора URL(исключения, ограничения),
рассчитывается контрольная сумма, проверяется на дубликат. В данном
блоке реализованы поля — это правило для поиска необходимых данных.
Правила поиска задается с помощью Xpath в крайних случаях можно
применить регулярные выражения. Результат поля можно проверить на
уникальность. Если результат является url, данный файл можно скачать.




Выходные данные —

реализовано через плагины





Плагин может быть вызван сразу после сохранения результата в базу данных
каждого url или при генерации через интерфейс парсера. В данный момент
мы активно разрабатываем плагины для популярных CMS.


https://pbender.ru/
9399d6ef42