Разработать парсеры PHP + интерфейс JS

Цена договорная
06 апреля 2021, 15:12 • 4 отклика • 42 просмотра
Во вложениях выдержки из проекта ТЗ в части списка
источников, реализации интерфейса.



Задачи в части разработки парсеров:
  • Разработать парсеры сайтов госорганов по списку (всего 175
    единиц), к примеру, publication.pravo.gov.ru, regulation.gov.ru.
  • Оценить работоспособность и доработать парсеры сайтов
    госорганов по списку (всего 247 единиц).
Задачи в части разработки интерфейса и функционала:
  • Разработать интерфейс (пример реализации интерфейса, а также
    детальное описание в проекте ТЗ), элементы в рамках одного окна: лента
    публикаций, отображение содержания публикации, клавиши фильтрации публикаций и
    пр.
  • Разработать инструменты выгрузки публикаций (пример
    реализации выгрузки в проекте ТЗ) в формате текстового файла с включением в
    выгрузку вложений (документы, изображения), а также маркировкой упоминаний кл.
    слов.
Специфика сбора информации:
  • Сбор текстовой информации (заголовок, подзаголовок, текст
    публикации), сбор вложений (документы, изображения).
  • Мониторинг отслеживания изменений в рамках публикаций (к
    примеру, появление нового документа и пр.)
В проекте ТЗ описаны (по запросу):
  • Списки сайтов-источников, по которым требуется разработать и
    доработать парсеров.
  • Примеры ошибок работоспособности парсеров.
  • Требования к парсингу наиболее сложных сайтов-источников
    (скрин публикации, пометка областей сбора данных).
  • Пример реализации интерфейса, а также детальное описание
    элементов интерфейса.
  • Пример реализации выгрузки в текстовом формате.
Справочно, частично описанные выше задачи реализованы, система включает:
  • Базу данных материалов, загруженных в систему (в ручном
    режиме или посредством парсеров), база парсеров.
  • Подсистему распознавания файлов (PDF, Word, Excel,
    графических файлов).
  • Подсистема поиска по БД.
  • Подсистема генерации и рассылки отчетов.
  • Подсистема управления парсерами.
  • Подсистема мониторинга доступности и исправности парсеров.
Файлы