Парсер отзывов с сайта tripadvisor.com

Цена договорная • наличный расчёт, безналичный расчёт, электронные деньги
25 января 2017, 14:56 • 3 отклика • 35 просмотров
Что нужно: парсер отзывов с сайта tripadvisor.com



Условия/требования:



1) Выбирается
тип: “рестораны”, “десерты”, “кофе и чай”, “бары и клубы” (для трипадвизора –
это подтипы “ресторанов”, но для нас это разные категории); “отели» (без
дополнительных подкатегорий, сплошняком), “достопримечательности и культурные объекты”, “природа и парки”,
“покупки”, “развлечения и игры” (все это в трипадвизорском разделе
“развлечения”, для нас – отдельные категории). Этот список в дальнейшем может
расширяться, так что надо будет проконсультировать, какой параметр менять.


2) Выбирается город/местность и внутри каждой из этих
категорий выбирается ТОП заведений. Число заведений/мест, входящих в этот топ, = (все число заведений/10), но опять же должно быть легко эту
цифру поменять. Этот отобранный топ заведений/мест берется.


3) Со страницы каждого из отобранных заведений/мест выбирается 1-2 лучших
отзыва, опубликованных за последний год на определенном языке (сейчас интересен русский, но надо, чтобы парсер умел учитывать этот параметр). Их «лучшесть», скорее всего, определять нужно через количество благодарностей
посту, при этом есть такие дополнительные ограничительные условия: а) сам отзыв
должен быть 4-х или 5-звездочный, не меньше; б) в полном тексте поста должно быть не более 850 знаков с
пробелами. Если есть какие-то другие идеи, как определять «лучшесть», готов
выслушать.


4) Сохраняется полный
текст каждого такого отзыва. При этом в начало текста отзыва автоматически
подставляется название заведения/места
с точкой.


5) Сохраняются точные координаты заведения (не
адрес, а широта и долгота).


6) Берется фотка, которая отображается на обложке
заведения (то есть, как я понимаю, первая) и (важный момент): а) обрезается до квадрата; б) получившийся квадрат пережимается в
разрешение 480х480. В случае, если с Трипадвизором есть нерешаемая для парсера проблема сохранения фотографий, давайте
подумаем над тем, как можно это сделать по-другому.



Итого на выходе по каждому отзыву должно получаться:


1) Категория места/заведения


2) Данные по широте и долготе


3) Текст лучшего отзыва.


4) Название заведения/места в начале текста отзыва.


5) Заглавная фотография со страницы места/заведения, обрезанная до квадрата и
пережатая в 480 на 480
+какие-то основные данные, которые использовались при выборке, чтоб в случае чего это можно было проанализировать: название заведения, местность, в которой выбирался Топ, язык отзывов и т.д. (в общем, всякая raw data пусть хранится).

Потом это все будет загоняться в нашу БД, но это уже обсудим лично.



И самое
главное: требуется инструмент парсинга, который будет использоваться многократно в
будущем, с разными категориями и, в первую очередь, местностями/городами, а не результат разового парсинга. То есть необходим парсер как
рабочий инструмент, в котором можно будет легко изменять определенные параметры
в зависимости от нужд и с которым можно активно работать.



Сейчас готовы рассмотреть сдельную, разовую работу, но если
в ходе сотрудничества будет взаимная симпатия, сможем обсудить и возможность
вашего вхождения в проект, в котором этот парсинг и будет использоваться.



Просьба в отклике сразу писать примерную стоимость и сроки
такой разработки.



Приоритет будет отдаваться тем, кто будет готов приступить сразу
и выполнить работу максимально быстро.

Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Парсер был не из простых. Тем не менее все было сделано качественно, на вопросы впоследствии всегда отвечал + те проблемы, которые были обнаружены, решал, никуда не пропадал, был на связи. Крайне советую.
5 лет назад