Конвертировать pdf файлы постранично в webp и html

Цена договорная

23 мая 2023, 09:19 • 12 откликов • 90 просмотров

На сайте есть раздел с инструкциями в pdf формате.

Проблема: содержимое в окне просмотра не отображается до полной загрузки самого pdf файла. Т.е пользователь может долго не видеть контент + это грузит браузер, т.к pdf загружается целиком.
Пример: https://tehnopanorama.ru/instrukcii/fotoapparaty/fotoapparaty-casio/casio-ex-z88/

Задача:
Написать скрипт (запускается на сервере), который проходит по папкам и обрабатывает в них pdf файлы. С каждого найденного pdf файла необходимо получить папку (имя папки соответствует имени pdf файла), в этой папке создаем:

Каждую страницу pdf документа конвертированную в формат webp (ширина 100px, высота пропорциональна ширине страницы);
Разметку каждой страницы pdf документа в виде html, т.е pdf должен быть конвертирован в html и разбит постранично (в html файле должна быть только разметка и стили содержимого, без доктайпов и пр.).
Файлы .webp и .html имеют имена по номеру страницы (1.webp и 1.html итд). Папка с этими файлами размещается в той же директории где находится обрабатываемый pdf документ.
Скрипт будет запускаться на кроне, поэтому он должен уметь пропускать уже обработанные pdf файлы, и обрабатывать только те, которые еще не обработал.

Примеры исходного вида структуры и результата приложены в файлах.

Для теста будет выделен сервер с похожей структурой, где будут pdf файлы различной сложности и объема, там же будут добавляться новые файлы.

Можно использовать любые технологии и библиотеки, главное чтобы запускалось на сервере Ubuntu. При тесте не обязательно использовать крон, можно через консольные команды.

Интересует стоимость скрипта и приветствуются другие способы решения этой задачи.

https://github.com/coolwanglu/pdf2htmlEX - библиотека на python - конвертирует pdf в html.

Файлы