Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Парсинг, Боты

Парсинг - etm.ru

Добавлено 22 янв 2022 в 16:41
Написание парсера в такие этапы:
1 Сбор ссылок на товары и запись их в файл.
2 Написание поиска по элементам страницы и фильтрация информации
3 Вывод найденой информации в CSV файл.

Работа парсера осложнялась тем, что сервер при частых запросах выдавал 403 ошибку. Поэтому было решено добавить задержку перед следующим запросом в 10 секунд, чтобы медленно но верно вытягивать информацию из сайта.
Ещё была проблема в том, что невозможно было привязаться к конкретным классам, так как на нескольких страницах они отличались. Поэтому пришлось переписывать структуру поиска и фильтрации элементов.
Заказ выполнен за 7 часов.

Репозиторий с кодом на гитхаб - https://github.com/distruct/parse-etm.git
Файл с получеными данными - https://docs.google.com/spreadsheets/d/1cmmn2I6...
Ca9cfa426e Dc672ffc78