Произвести парсинг (в xlsx файл) товаров из интернет магазина

Цена договорная
26 апреля 2022, 23:51 • 20 откликов • 107 просмотров
Добрый день!

Нужно спарсить данные с сайта opusdeco.ru, бренд Aura. На выходе нужно получить xlsx файл, также, нужно скачать все изображения из карточек товаров. Одна строка таблицы должна соответствовать одному товару. В xlsx файле нужно сделать две таблицы:

Первая таблица (назвать вкладку "1"):

А: ссылка на товар
B: артикул товара без знака решётки (на сайте артикул товара указан с этим знаком)
C: Основной цвет. Если цветов несколько, они должны идти через знак "|". Сами цвета не приведены в карточках товара, нужно достать информацию из фильтров для поиска.
D: Тематика. Если тематик несколько, они должны идти через знак "|". Сами тематики не приведены в карточках товара, нужно достать информацию из фильтров для поиска.
E: Рисунок. Если этих характеристик несколько, они должны идти через знак "|". Сами рисунки не приведены в карточках товара, нужно достать информацию из фильтров для поиска.
F: Материал обоев и данные из поисковых разделов под названием "рисунок" и "цвет основной" через знак |. Например "Винил на флизелине|Мелкий рисунок|Бежевый".


Вторая таблица (назвать вкладку "2"):

A: ссылка на товар
B: ссылки на все изображения карточки товара через знак "|", если изображений в карточке несколько.
C: артикул товара. Уберите пожалуйста знак решётки перед артикулом.

D: Первый артикул группы обоев с текущим рисунком. На приведенном скриншоте (см. прикреплённые файлы) обои, помеченные цифрой "1", имеют одинаковый рисунок, но разное цветовое исполнение. Нужно сгруппировать различные цветовые исполнения обоев с одинаковым рисунком, отсортировать артикулы сгруппированных товаров по возрастанию. Первый артикул из полученной группы артикулов и будет искомым для этого столбца. Таким образом, для всех обоев, помеченных цифрой 1 на прикреплённом рисунке, этот столбец будет иметь значение 8167/80073 (артикулы указаны под образцами рисунков).

К сожалению, чёткого патерна в артикулах для одинаковых рисунков нет. Пожалуйста, подумайте, каким образом надёжнее сгруппировать обои с одинаковыми рисунками.. Моё предложение по условию определения принадлежности к группе: первые несколько символов артикула совпадают + совпадает коллекция + совпадает ширина. Возможно, для каких-то коллекций подойдёт разбиение по символу типа "/". Понимаю, что 100% результата в сортировке вряд ли удастся добиться, сделайте пожалуйста, что сможете. Для оценки качества сортировки приложите пожалуйста следующие данные: набор папок, где имя папки - это первый артикул группы, а содержание папки - это изображения из карточек товара, имя изображений - это артикулы карточек товара. Артикулы тоже должен быть без решётки.

E: коллекция (берём из карточки товара как показано на второй картинке, прикреплённой к этой задаче)
F: бренд (указан во вкладке "характеристики" карточки товара)
G: страна производства (указана во вкладке "характеристики" карточки товара)
H: базовая единица (указана во вкладке "характеристики" карточки товара)
I: материал обоев (указан во вкладке "характеристики" карточки товара)
J: размер обоев (указан во вкладке "характеристики" карточки товара)
K: рапорт (указан во вкладке "характеристики" карточки товара)
L: комментарий (указан во вкладке "характеристики" карточки товара)
M: цена, если есть
N: валюта, если есть. Пожалуйста, замените название валюты типа "руб." на знак рубля.

Если каких-то данных не достаёт для конкретной карточки товара, ставим в ячейке знак "-"

Пожалуйста, отвечая на заказ, указывайте ориентировочные сроки выполнения работы и стоимость работы.

Благодарен за внимание.
Файлы