Конвертировать pdf файлы постранично в webp и html

Цена договорная
23 мая 2023, 09:19 • 12 откликов • 88 просмотров
На сайте есть раздел с инструкциями в pdf формате.

Проблема: содержимое в окне просмотра не отображается до полной загрузки самого pdf файла. Т.е пользователь может долго не видеть контент + это грузит браузер, т.к pdf загружается целиком.
Пример: https://tehnopanorama.ru/instrukcii/fotoapparaty/fotoapparaty-casio/casio-ex-z88/

Задача:
Написать скрипт (запускается на сервере), который проходит по папкам и обрабатывает в них pdf файлы. С каждого найденного pdf файла необходимо получить папку (имя папки соответствует имени pdf файла), в этой папке создаем:
  1. Каждую страницу pdf документа конвертированную в формат webp (ширина 100px, высота пропорциональна ширине страницы);
  2. Разметку каждой страницы pdf документа в виде html, т.е pdf должен быть конвертирован в html и разбит постранично (в html файле должна быть только разметка и стили содержимого, без доктайпов и пр.).
  3. Файлы .webp и .html имеют имена по номеру страницы (1.webp и 1.html итд). Папка с этими файлами размещается в той же директории где находится обрабатываемый pdf документ.
  4. Скрипт будет запускаться на кроне, поэтому он должен уметь пропускать уже обработанные pdf файлы, и обрабатывать только те, которые еще не обработал.
Примеры исходного вида структуры и результата приложены в файлах.

Для теста будет выделен сервер с похожей структурой, где будут pdf файлы различной сложности и объема, там же будут добавляться новые файлы.

Можно использовать любые технологии и библиотеки, главное чтобы запускалось на сервере Ubuntu. При тесте не обязательно использовать крон, можно через консольные команды.

Интересует стоимость скрипта и приветствуются другие способы решения этой задачи.

https://github.com/coolwanglu/pdf2htmlEX - библиотека на python - конвертирует pdf в html.
Файлы
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Работа выполнена очень оперативно и качественно! Помог разобраться с нюансами :) Рекомендую!
1 год назад
R50 350e14f97d7a750e5a900df270a2f539
Фрилансер
Отличный заказчик! интересная задача! Приятное общение! Оплата вовремя!
1 год назад