Скрипты-парсеры для сайтов 10 аэропортов №18

10 000 руб. за проект • электронные деньги
15 апреля 2017, 19:08 • 5 откликов • 54 просмотра
Необходимо разработать скрипты для сбора данных о вылетах и прибытиях самолетов в 10 аэропортах:
Код Аэропорт Город URL

SYX Phoenix International Airport Sanya http://www.sanyaairport.com/autoweb/autoweb/second...
SZG W. A. Mozart Airport Salzburg http://www.salzburg-airport.com/en/
TIA Tirana International Airport Mother Teresa Tirana http://www.tirana-airport.com/c/3/flight-informati...
TGD Golubovci Airport Podgorica http://www.montenegroairports.com/eng/index2.php?a...
TLL Ulemiste Tallinn http://www.tallinn-airport.ee/en/flight-info/realt...
TLS Blagnac Toulouse http://www.toulouse.aeroport.fr/en/passengers/flig...
TLV Ben Gurion International Airport Tel Aviv-Yafo http://www.iaa.gov.il/en-us/airports/bengurion/pag...
TRN Caselle Airport Turin http://www.aeroportoditorino.it/en/tofly/flights/d...
TRS Ronchi Dei Legionari Trieste http://triesteairport.it/en/airport/flights-and-de...
VAR Varna Airport Varna http://www.varna-airport.bg/Flights/Arrivals/tabid...


Требования:
  1. Скрипты могут быть написаны на любом распространенном языке.
  2. Каждый скрипт должен быть разработан таким образом чтобы его можно было вызывать из линуксовой консоли.
  3. Вам будет нужно сообщить нам по и версии, необходимые для работы скрипта (например, python 2.7.*, BeautifulSoup 4.4.*). Скрипт будет запускаться в Docker-контейнере, поэтому, если вы знакомы с докером, то достаточно сообщить название и тэг образа из докер репозитория в котором скрипт сможет правильно работать или предоставить Dockerfile для создания такого образа.
  4. Там, где аэропорты предоставляют данные в форматах json, csv, xml и т. д. предпочтительней использовать их, иначе - делать парсинг html-страниц(ы) с помощью соответствующей библиотеки.
  5. Результат должен содержать как минимум информацию по рейсам, которые приземлились / должны были приземлиться за последние 4 часа и которые по расписанию должны приземлиться в течение ближайших 24 часов, если эта информация доступна на сайте аэропорта.
  6. Скрипт должен всегда работать с англоязычной версией сайта аэропорта при ее наличии.
  7. В результате своей работы скрипт должен вывести в STDOUT только (никаких warning'ов, комментариев, логов и т. п.) JSON-структуру в виде:
{
"airport_id": "HKG",
"departures": [
{
"flightno": "CX828",
"codeshares": [
"TX828",
"ZX828"
],
"check_in_desks": "21 - 23",
"gate": "31",
"scheduled": "2016-10-11 07:27:00",
"estimated": "2016-10-11 07:45:00",
"actual": "2016-10-11 07:46:00",
"raw_status": "Departed at 07:46",
"status": "departed"
}
],
"arrivals": [
{
"flightno": "CX829",
"codeshares": [
"TX829",
"ZX829"
],
"luggage": "11, 12, 14",
"scheduled": "2016-10-11 07:27:00",
"estimated": "2016-10-11 07:25:00",
"actual": "2016-10-11 07:26:00",
"raw_status": "Bag belt open 11, 12, 14",
"status": "landed"
}
]
}

Где
airport_id - ID Аэропорта (согласно кодировки IATA) указан выше в списке аэропортов (трехбуквенный)
departures - массив рейсов вылетов
arrivals - массив рейсов прилетов
flightno - номер рейса
codeshares - массив совмещенных номеров рейсов (если есть)
check_in_desks - стойки регистрации (если есть)
gate - выход на посадку (если есть)
luggage - выдача багажа (если есть)
scheduled - дата/время вылета/приземления по расписанию по местному времени аэропорта в формате YYYY-mm-dd HH:MM:SS
estimated - прогнозируемые дата/время вылета/приземления (если есть) по местному времени аэропорта в формате YYYY-mm-dd HH:MM:SS
actual - фактические дата/время вылета/приземления (если есть) по местному времени аэропорта в формате YYYY-mm-dd HH:MM:SS
raw_status - статус как он отображается на сайте аэропорта
status - один из:
unknown - статус неизвестен
scheduled - рейс идет по расписанию
checkin - идет регистрация
boarding - идет посадка
outgate - посадка закончена
departed - рейс вылетел
expected - ожидается скорая посадка
delayed - рейс задерживается
landed - приземлился
cancelled - рейс отменен

Таблица соответствия статусов в аттаче (Flight statuses mapping). Если вы встретили какой-то другой статус, сообщите мне, я скажу как его интерпретировать и добавлю в таблицу.

В 99% случаев, все необходимые рейсы можно получить сделав небольшое количество запросов. Однако бывают сайты, где все обязательные поля (flightno, scheduled, raw_status, status) можно получить только делая по одному запросу на каждый рейс. В таком случае при запуске скрипта будет передан параметр flightno, и тогда скрипт должен найти похожие рейсы и сделать запросы только по ним.
Таким образом, выполнение скрипта в любом случае не должно занимать более 1 минуты.

Файлы
Отзывы
R50 f33d17224917b24cd6adc2bfe337cdf6
Заказчик
Работа выполнена отлично, все требования соблюдены. Внимателен к деталям. Рекомендую.
7 лет назад
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Фрилансер
Человек, с которым комфортно работать во всех отношениях. Все технические детали прорабатываются быстро и главное грамотно. Оплата без сложностей. Общение споконое, уравновешенное, без нервотрепки. В общем всячески рекомендую.
7 лет назад