Разработка системы мониторинга публикаций

Цена договорная
12 ноября 2021, 11:38 • 4 отклика • 62 просмотра
Задачи в части разработки парсеров:
  • Разработать парсеры сайтов по списку, к примеру, publication.pravo.gov.ru, regulation.gov.ru.
  • Оценить работоспособность и доработать парсеры сайтов по списку.
Задачи в части разработки интерфейса и функционала:
  • Разработать интерфейс (пример реализации интерфейса, а также детальное описание в проекте ТЗ), элементы в рамках одного окна: лента публикаций, отображение содержания публикации, клавиши фильтрации публикаций и пр.
  • Разработать инструменты выгрузки публикаций (пример реализации выгрузки в проекте ТЗ) в формате текстового файла с включением в выгрузку вложений (документы, изображения), а также маркировкой упоминаний кл. слов.

Во вложении выдержки из проекта ТЗ в части списка источников, реализации интерфейса.


Специфика сбора информации:
  • Сбор текстовой информации (заголовок, подзаголовок, текст публикации), сбор вложений (документы, изображения).
  • Мониторинг отслеживания изменений в рамках публикаций (к примеру, появление нового документа и пр.)
В проекте ТЗ описаны (по запросу):
  • Списки сайтов-источников, по которым требуется разработать и доработать парсеров.
  • Примеры ошибок работоспособности парсеров.
  • Требования к парсингу наиболее сложных сайтов-источников (скрин публикации, пометка областей сбора данных).
  • Пример реализации интерфейса, а также детальное описание элементов интерфейса.
  • Пример реализации выгрузки в текстовом формате.
Справочно, частично задачи реализованы, система включает:
  • база данных материалов, загруженных в систему (в ручном режиме или посредством парсеров), база парсеров,
  • подсистема распознавания файлов (PDF, Word, Excel, графических файлов),
  • подсистема поиска по базе,
  • подсистема генерации и рассылки отчетов,
  • подсистема управления парсерами,
  • подсистема мониторинга доступности и исправности парсеров.
Требования
  • Знания PHP 7, основных паттернов ООП
  • Опыт работы с Yii2, в частности построения приложения REST API, микросервисной архитектуры, владение встроенным в Yii функционалом валидации, хелперов.
  • Знание и умение применять регулярные выражения
  • Построение HTTP/CURL запросов, умение создавать классы/методы «обертки» для таких запросов
  • Понимание работы фоновых процессов, работающих на PHP в режиме «демонов». Знание расширений POSIX, PCNTL
  • Владение расширениями для парсинга DOM структуры html страниц, в частности: SimpleXML
  • Опыт работы с нереляцинными базами данных, в частности: Redis
  • Построение сложных MySQL запросов с использованием JOIN, HAVING, вложенных запросов, как на самом MySQL так и в функционале Yii2 Query Builder. Понимание связей между таблицами, внешних ключей, индексации
  • Понимание принципов авторизации по токену, принцип работы Bearer Token.
  • Понимание и навык использования стандартов PSR в разработке

Файлы