Как извлечь изображения и текст из файла PDF?

Question

Как извлечь изображения и текст из файла PDF?

пдф
XML
json
Софт

габитиш

Мне нужно создать инструмент, который берет текст и изображения из pdf и отображает их в адаптивном HTML-файле. Мне не нужно сохранять расположение элементов, но порядок важен.

Проблема, с которой я сталкиваюсь, - это извлечение текста и изображений из файлов PDF.

Я пробовал несколько инструментов, которые преобразуют pdf в html, но они больше ориентированы на визуальное воспроизведение файла (абсолютное позиционирование, абзацы разбиты на строки). Мне нужно что-то, чтобы предоставить мне поток абзацев и изображений.

Любые идеи для этого? Я также не против изучить платные инструменты.

Спасибо!

Райан

С каким контентом вы имеете дело? Журналы, академические журналы, учебники, газеты, финансовые отчеты? Причина, по которой вам трудно найти решение, заключается в том, как сделать перекомпонуемый HTML-код из школьного учебника географии? Или журнал? Изображения, шрифт и размер текста часто тесно связаны друг с другом, и нарушение этого приведет к тарабарщине. С другой стороны, академическая статья намного проще, хотя вам все равно нужно разобраться с колонками и абзацами, что не так уж и тривиально.

Ответы (4)

Как извлечь изображения и текст из файла PDF?

С каким контентом вы имеете дело? Журналы, академические журналы, учебники, газеты, финансовые отчеты? Причина, по которой вам трудно найти решение, заключается в том, как сделать перекомпонуемый HTML-код из школьного учебника географии? Или журнал? Изображения, шрифт и размер текста часто тесно связаны друг с другом, и нарушение этого приведет к тарабарщине. С другой стороны, академическая статья намного проще, хотя вам все равно нужно разобраться с колонками и абзацами, что не так уж и тривиально.

нвиллалобос · Answer 1

Если вам подходит коммерческий SDK, вы можете воспользоваться конвертером документов LEADTOOLS. Отказ от ответственности: я являюсь сотрудником этого продукта

Document Converter SDK от LEADTOOLS позволяет конвертировать в любой формат документа или растрового изображения, например:

Adobe Acrobat PDF и PDF/A Microsoft Office DOC/DOCX, XLS/XLSX,
Форматы PPT/PPTX, PST, EML, MSG и XPS Форматы CAD, такие как DXF,
DWG и DWF TIFF, JPEG, PNG, EXIF, BMP и сотни других растровых изображений
форматы изображений Plain Text, RTF, HTML, MOBI, ePUB и др. IBM AFP,
MO: DCA, IOCA и PTOCA

Существует также бесплатная 60-дневная ознакомительная версия , чтобы вы могли попробовать ее перед покупкой.

Отказ от ответственности: я являюсь сотрудником этого продукта

Андреас Ф · Answer 2

Приложение Apache pdfbox может извлекать как тестовые файлы, так и изображения из документов PDF. Это бесплатное программное обеспечение и простое в использовании.

https://pdfbox.apache.org/1.8/commandline.html

Джо Громни · Answer 3

PDFMate PDF Converter Free может это сделать. Запустите программу, выберите TXT в качестве выходного формата и нажмите кнопку «Конвертировать».

Брэндон Хауген · Answer 4

Отказ от ответственности: я работаю в Datalogics менеджером по продукту, отвечающим за создание таких продуктов.

Существует ряд инструментов, которые уже созданы для преобразования PDF в HTML, вам действительно нужно создавать их самостоятельно? Или вы ищете что-то, что делает именно то, что вы хотите? Требования немного расплывчаты.

Если вы хотите что-то создать, сделайте себе одолжение и получите надежный SDK для работы с PDF-файлами и работы с извлечением текста и изображений. Существует ряд SDK, которые могут помочь вам в этом (в алфавитном порядке по названию компании).

BCL Technologies easyPDF SDK
Даталогикс
- Библиотека Adobe PDF
- Инструментарий Java для PDF
iText
Твердые документы

Если вы ищете инструмент, который выполняет преобразование PDF в HTML для вас, который должен помочь вам на 90% пути, основываясь на том, о чем вы спрашивали, взгляните на наш продукт PDF Alchemist . Он не использует абсолютное позиционирование и восстанавливает текст в порядке чтения (даже если это не так, как он хранится в PDF). Другой вариант - PDFix , я не помню, используют ли они абсолютное позиционирование или нет (или есть ли возможность отключить абсолютное позиционирование).

Как извлечь изображения и текст из файла PDF?

габитиш

Райан

Ответы (4)

нвиллалобос

Андреас Ф

Джо Громни

Брэндон Хауген

Быстро меняющийся поток данных для демонстрации программного обеспечения (данные)

Программное обеспечение для академических биографических данных с выводом PDF и HTML

Создание PDF-файлов из XML-комментариев

Ищете платформу JavaScript для рисования информационных панелей на основе описания XML или JSON.

Существует ли какое-либо бесплатное программное обеспечение для моделирования данных, которое экспортирует схему в машиночитаемый формат, отличный от SQL?

На iPad iBooks, как сделать так, чтобы выделение отображалось для файлов PDF?

Как отключить редактирование PDF в приложении Preview?

Могу ли я удалить разрывы страниц (или переформатировать документы PostScript) в файлах PDF?

Инструмент проверки XML

Виртуальный принтер, который будет печатать дизайн, а затем сохранять его на компьютер в Windows.