Как извлечь изображения и текст из файла PDF?

Мне нужно создать инструмент, который берет текст и изображения из pdf и отображает их в адаптивном HTML-файле. Мне не нужно сохранять расположение элементов, но порядок важен.

Проблема, с которой я сталкиваюсь, - это извлечение текста и изображений из файлов PDF.

Я пробовал несколько инструментов, которые преобразуют pdf в html, но они больше ориентированы на визуальное воспроизведение файла (абсолютное позиционирование, абзацы разбиты на строки). Мне нужно что-то, чтобы предоставить мне поток абзацев и изображений.

Любые идеи для этого? Я также не против изучить платные инструменты.

Спасибо!

С каким контентом вы имеете дело? Журналы, академические журналы, учебники, газеты, финансовые отчеты? Причина, по которой вам трудно найти решение, заключается в том, как сделать перекомпонуемый HTML-код из школьного учебника географии? Или журнал? Изображения, шрифт и размер текста часто тесно связаны друг с другом, и нарушение этого приведет к тарабарщине. С другой стороны, академическая статья намного проще, хотя вам все равно нужно разобраться с колонками и абзацами, что не так уж и тривиально.

Ответы (4)

Если вам подходит коммерческий SDK, вы можете воспользоваться конвертером документов LEADTOOLS. Отказ от ответственности: я являюсь сотрудником этого продукта

Document Converter SDK от LEADTOOLS позволяет конвертировать в любой формат документа или растрового изображения, например:

  • Adobe Acrobat PDF и PDF/A Microsoft Office DOC/DOCX, XLS/XLSX,
  • Форматы PPT/PPTX, PST, EML, MSG и XPS Форматы CAD, такие как DXF,
  • DWG и DWF TIFF, JPEG, PNG, EXIF, BMP и сотни других растровых изображений
  • форматы изображений Plain Text, RTF, HTML, MOBI, ePUB и др. IBM AFP,
  • MO: DCA, IOCA и PTOCA

Существует также бесплатная 60-дневная ознакомительная версия , чтобы вы могли попробовать ее перед покупкой.

Отказ от ответственности: я являюсь сотрудником этого продукта

Приложение Apache pdfbox может извлекать как тестовые файлы, так и изображения из документов PDF. Это бесплатное программное обеспечение и простое в использовании.

https://pdfbox.apache.org/1.8/commandline.html

PDFMate PDF Converter Free может это сделать. Запустите программу, выберите TXT в качестве выходного формата и нажмите кнопку «Конвертировать».

Отказ от ответственности: я работаю в Datalogics менеджером по продукту, отвечающим за создание таких продуктов.

Существует ряд инструментов, которые уже созданы для преобразования PDF в HTML, вам действительно нужно создавать их самостоятельно? Или вы ищете что-то, что делает именно то, что вы хотите? Требования немного расплывчаты.

Если вы хотите что-то создать, сделайте себе одолжение и получите надежный SDK для работы с PDF-файлами и работы с извлечением текста и изображений. Существует ряд SDK, которые могут помочь вам в этом (в алфавитном порядке по названию компании).

Если вы ищете инструмент, который выполняет преобразование PDF в HTML для вас, который должен помочь вам на 90% пути, основываясь на том, о чем вы спрашивали, взгляните на наш продукт PDF Alchemist . Он не использует абсолютное позиционирование и восстанавливает текст в порядке чтения (даже если это не так, как он хранится в PDF). Другой вариант - PDFix , я не помню, используют ли они абсолютное позиционирование или нет (или есть ли возможность отключить абсолютное позиционирование).