Парсер и сборщик информации из электронной почты

Цена договорная • безналичный расчёт
18 мая 2015, 13:35 • 5 откликов • 74 просмотра
Имеем следующее


  1. Поток писем электронной почты, в котором встречаются письма с заказами (проектами).

  2. Подробности о заказе могут быть как в тексте самого письма, так и во вложении (PDF) или по ссылке, включенной в письмо, в системе управления проектами клиента (для доступа требуется авторизация).

  3. В данный момент менеджеры вручную переносят все данные о заказах из писем и вложенных документов/сайтов в нашу систему управления проектами.

  4. Письма от крупных клиентов составляются автоматически по шаблону, так что имея профильные образование и опыт, наверняка возможно извлечь из них нужную информацию, не создавая полноценный ИИ.


Требуется инструмент, который бы запускался на почтовом сервере под Windows каждые Х минут и делал следующее:


  1. Обрабатывал все файлы *.eml (новую почту) в указанной папке.

  2. Идентифицировал типовые письма с заказами от основных клиентов (основных клиентов пока несколько).

  3. "Разбирал" каждое такое письмо (для каждого клиента, видимо, будет своя индивидуальная логика).

  4. Если нужные данные находятся во вложении (пока только PDF. но в перспективе могут быть и другие варианты). также извлекал и распознавал бы их.

  5. Если нужные данные находятся на веб-сайте в системе управления клиента, также извлекал и распознавал бы их.

  6. Когда все нужные данные собраны (порядка 30 полей на 1 заказ), выводил бы их в едином формате независимо от клиента в файл для обмена с нашей системой управления проектами, например XML, и удалял обработанные *.eml.

  7. После этого наша система управления проектами будет импортировать данные из обнаруженных новых XML-ов (просто к сведению, это уже не входит в данную задачу).

  8. Парсер для каждого клиента хотелось бы иметь в таким виде, чтобы мелкие изменения можно было вносить самостоятельно, не прибегая к помощи разработчика.

Отвечая на это предложение, пожалуйста, укажите:

  1. Ссылки или описания других ваших работ сходного типа.

  2. Какую платформу/фреймворк/язык программирования вы использовали бы в данной работе и почему.

  3. Вашу оценку (хотя бы грубую, min/max) данной работы по времени для обработки корреспонденции от двух клиентов (т.е. двух типов писем).

  4. Вашу оценку стоимости данной работы (хотя бы грубую, min/max) для обработки корреспонденции от двух клиентов (т.е. двух типов писем).