Конвертировать pdf файлы постранично в webp и html
Цена договорная
На сайте есть раздел с инструкциями в pdf формате.
Проблема: содержимое в окне просмотра не отображается до полной загрузки самого pdf файла. Т.е пользователь может долго не видеть контент + это грузит браузер, т.к pdf загружается целиком.
Пример: https://tehnopanorama.ru/instrukcii/fotoapparaty/fotoapparaty-casio/casio-ex-z88/
Задача:
Написать скрипт (запускается на сервере), который проходит по папкам и обрабатывает в них pdf файлы. С каждого найденного pdf файла необходимо получить папку (имя папки соответствует имени pdf файла), в этой папке создаем:
Для теста будет выделен сервер с похожей структурой, где будут pdf файлы различной сложности и объема, там же будут добавляться новые файлы.
Можно использовать любые технологии и библиотеки, главное чтобы запускалось на сервере Ubuntu. При тесте не обязательно использовать крон, можно через консольные команды.
Интересует стоимость скрипта и приветствуются другие способы решения этой задачи.
https://github.com/coolwanglu/pdf2htmlEX - библиотека на python - конвертирует pdf в html.
Проблема: содержимое в окне просмотра не отображается до полной загрузки самого pdf файла. Т.е пользователь может долго не видеть контент + это грузит браузер, т.к pdf загружается целиком.
Пример: https://tehnopanorama.ru/instrukcii/fotoapparaty/fotoapparaty-casio/casio-ex-z88/
Задача:
Написать скрипт (запускается на сервере), который проходит по папкам и обрабатывает в них pdf файлы. С каждого найденного pdf файла необходимо получить папку (имя папки соответствует имени pdf файла), в этой папке создаем:
- Каждую страницу pdf документа конвертированную в формат webp (ширина 100px, высота пропорциональна ширине страницы);
- Разметку каждой страницы pdf документа в виде html, т.е pdf должен быть конвертирован в html и разбит постранично (в html файле должна быть только разметка и стили содержимого, без доктайпов и пр.).
- Файлы .webp и .html имеют имена по номеру страницы (1.webp и 1.html итд). Папка с этими файлами размещается в той же директории где находится обрабатываемый pdf документ.
- Скрипт будет запускаться на кроне, поэтому он должен уметь пропускать уже обработанные pdf файлы, и обрабатывать только те, которые еще не обработал.
Для теста будет выделен сервер с похожей структурой, где будут pdf файлы различной сложности и объема, там же будут добавляться новые файлы.
Можно использовать любые технологии и библиотеки, главное чтобы запускалось на сервере Ubuntu. При тесте не обязательно использовать крон, можно через консольные команды.
Интересует стоимость скрипта и приветствуются другие способы решения этой задачи.
https://github.com/coolwanglu/pdf2htmlEX - библиотека на python - конвертирует pdf в html.
Отзывы
Работа выполнена очень оперативно и качественно! Помог разобраться с нюансами :) Рекомендую!
1 год
назад
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.