Извлечь контент из PDF через Python

Цена договорная
20 января 2025, 16:32 • 12 откликов • 65 просмотров
Извлечь все элементы PDF файла (текст, изображения, графики, формулы)
ссылка на файл

используя Python-библиотеки:

  • PyPDF2 или pdfplumber для текста.
  • PyMuPDF (fitz) для извлечения изображений и графиков.
  • pytesseract для OCR, для текста встроеного в изображения.
  • Код для извлечения:
  • import fitz # PyMuPDF для PDF
    # Открываем PDF
    pdf_file = "file.pdf"
    doc = fitz.open(pdf_file)
    # Извлекаем содержимое
    for page_num in range(len(doc)):
    page = doc[page_num]
    text = page.get_text("text") # Извлекаем текст
    images = page.get_images(full=True) # Извлекаем изображения

    # Обрабатываем изображения
    for img_index, img in enumerate(images):
    xref = img[0]
    base_image = doc.extract_image(xref)
    image_bytes = base_image["image"]

    # Сохраняем изображения как файл (например, PNG)
    with open(f"image_page{page_num}_{img_index}.png", "wb") as img_file:
    img_file.write(image_bytes)

    print("Извлечение завершено.")