Задача:
Собрать информацию обо всех отелях Европы и Дубая с сайта Booking.com, учитывая фильтры по цене и числу гостей. Результаты следовало сохранить в Excel файл.
Фильтры:
- Отели стоимостью от $1000
- 2 взрослых
- Без детей
Данные для сбора:
- Название отеля
- Страна
- Адрес
- Цена
Используемые технологии: Python и Selenium.
Обратите внимание, что на момент разработки парсера на сайте была пагинация внизу страницы, но в настоящее время там находится кнопка "Загрузить больше результатов".
Решение:
Для парсинга было создано URL, содержащий все изменяемые и неизменяемые параметры, а также текущую и завтрашнюю даты. Для повышения стабильности парсера данные о стране, странице и последнем просмотренном отеле сохранялись в JSON файл. Это позволяло продолжать сбор данных с того места, где парсер остановился в случае непредвиденной ошибки, избегая повторного добавления одних и тех же данных в итоговый файл.
Было собрано около 2.000 позиций.
Код на GitHub:
https://github.com/Nlkita357/Parsing_booking_count...