Парсер для интернет-магазина по шаблону

10 000 руб. за проект • безналичный расчёт, электронные деньги
23 августа 2014, 00:06 • 4 отклика • 48 просмотров
Разработать по шаблону с использованием готовой библиотеки несколько php-скриптов для парсинга сайтов интернет-магазинов.
Для каждого сайта — свой скрипт  (полный список сайтов — во вложении, всего 25 шт.).
Во вложении — рабочий пример-шаблон + готовые библиотеки и утилиты для подключения.

Примеры сайтов: раз  , дватри

ТЗ
Скрипт при запуске (из командной строки или из браузера — не важно) должен:
1) выбрать с сайта категории
2) пройтись по всем категориям и выбрать в них все товары с указанными характеристиками: категория, подкатегория, цена, артикул, наименование, размеры (через запятую, если есть) или прочерк, цвета (через запятую), описание, ссылки на полные фотографии (через запятую)
3) если на страницах категорий не указаны полные данные по каждому товару, скрипт должен обойти также страницы всех товаров для выборки всех необходимых данных
4) все данные должны быть приведены к строчному виду (без переводов строк)
5) готовый список товаров «сложить» в текстовый файл (разделители — ; , текстовые поля в двойных кавычках) в кодировке utf-8 в папке скрипта. Формат строки:
"категория";"подкатегория (если есть) или прочерк";"цена";"артикул (если есть) или прочерк";"наименование";"размеры (через запятую, если есть) или прочерк";"цвета (через запятую, если есть) или прочерк";"описание (в одну строку, если есть) или прочерк";"ссылки на основную и доп. фотографии в максимальном размере (через запятую)"

Особые условия и замечания:

  • При запуске скрипта-примера папка, в которой он размещён должна быть доступна для записи скрипту

  • Время работы скрипта: неограничено ( set_time_limit(0) ).

  • Многопоточность — по желанию.

  • Кеширование (встроено в прилагаемую библиотеку)

  • В случае недоступности либо изменения структуры исходного сайта скрипт должен спокойно завершиться с соответствующим сообщением (встроено в библиотеку).

  • Ошибок и нотификаций быть не должно при установленных опциях error_reporting(E_ALL) и ini_set('display_errors',1).

  • Для более удобной выборки данных допускается использование библиотеки phpQuery ( порт JQuery на PHP https://code.google.com/p/phpquery/ ) либо регэкспы, как вам удобнее (в примере-шаблоне используется и то и другое ).


Состав вложения: 

  1. sample.php — рабочий шаблон-пример (UTF-8)

  2. sample.csv — пример итогового текстового файла (UTF-8)

  3. library.php — подключаемая библиотека утилит и полезных функций с описанием (UTF-8)

  4. phpQuery-onefile.php — подключаемая библиотека https://code.google.com/p/phpquery/

  5. list.txt — список сайтов к обработке


В ответе укажите:
1) оценочный срок
2) стоимость работы
3) ваш опыт по созданию таких скриптов
4) желаете ли в дальнейшем получать такие заказы на регулярной основе (3-10 сайтов в неделю и больше)


Пожалуйста, будьте реалистичны в своих оценках!
Среднее время на сайт у предыдущего исполнителя — 1 час.
Так что не обещайте все 25 написать за сутки %-)

Файлы