Спарсить с сайта URL фото - Node js или Python
3 000 руб. за проект
На входе:
Таблица с ссылками на страницы сайта с которого надо взять url фотографии продукта. Ранее был работающий скрипт на node js + puppeter + cheerio
ЗАДАЧА
Написать парсер для получения URL фотографий продуктов по URL страницы продукта.
Всего около 5000 страниц.
На странице фото товара - ссылка на изображение подставляется в итоговую таблицу.
Если на странице нет фото, соответствующая ячейка заполняется строкой "нет фото"
СЛОЖНОСТИ
- На сайте контент подставляется динамически, на старте показывается лоадер, есть некоторое время на подгрузку, src фотографии подставляется динамически.
- Существующий скрипт перестал работать - долгий лоадер, а затем предложение перезагрузить страницу, даже при таймауте в 20 сек. Есть подозрения, что сделали защиту от скрапинга и сайт распознает Chromium. В обычном брузере открывется без проблем хоть и не быстро (3-5 секунд)
БЮДЖЕТ
2000 - 3000 р
СРОК
до 3 дней
ОПЛАТА
С карты на карту
РАССМАТРИВАЕМЫЕ ВАРИАНТЫ РЕАЛИЗАЦИИ:
А) Написать парсер на node js + puppeter + cheerio - как-то обойти блокировку. Достаточно написать скрипт по однократному извлечению URL, остальное у меня есть
Б) Написать парсер на python + каком-нибудь selenium. Но тут придется дополнительно писать модули по извлечению данных из файла .xls, скачиванию картинки, потому что вся кодовая база на Node js
парсеры на других языках не рассматриваю
ДЛЯ ВЫБОРА
Напишите пару слов о своем опыте с парсерами, предположительный бюджет на такой парсер и телеграм для связи. Если предварительно отберу - напишу в ТГ и отправлю ссылку образца страницы
Таблица с ссылками на страницы сайта с которого надо взять url фотографии продукта. Ранее был работающий скрипт на node js + puppeter + cheerio
ЗАДАЧА
Написать парсер для получения URL фотографий продуктов по URL страницы продукта.
Всего около 5000 страниц.
На странице фото товара - ссылка на изображение подставляется в итоговую таблицу.
Если на странице нет фото, соответствующая ячейка заполняется строкой "нет фото"
СЛОЖНОСТИ
- На сайте контент подставляется динамически, на старте показывается лоадер, есть некоторое время на подгрузку, src фотографии подставляется динамически.
- Существующий скрипт перестал работать - долгий лоадер, а затем предложение перезагрузить страницу, даже при таймауте в 20 сек. Есть подозрения, что сделали защиту от скрапинга и сайт распознает Chromium. В обычном брузере открывется без проблем хоть и не быстро (3-5 секунд)
БЮДЖЕТ
2000 - 3000 р
СРОК
до 3 дней
ОПЛАТА
С карты на карту
РАССМАТРИВАЕМЫЕ ВАРИАНТЫ РЕАЛИЗАЦИИ:
А) Написать парсер на node js + puppeter + cheerio - как-то обойти блокировку. Достаточно написать скрипт по однократному извлечению URL, остальное у меня есть
Б) Написать парсер на python + каком-нибудь selenium. Но тут придется дополнительно писать модули по извлечению данных из файла .xls, скачиванию картинки, потому что вся кодовая база на Node js
парсеры на других языках не рассматриваю
ДЛЯ ВЫБОРА
Напишите пару слов о своем опыте с парсерами, предположительный бюджет на такой парсер и телеграм для связи. Если предварительно отберу - напишу в ТГ и отправлю ссылку образца страницы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.