Мне нужно создать инструмент, который берет текст и изображения из pdf и отображает их в адаптивном HTML-файле. Мне не нужно сохранять расположение элементов, но порядок важен.
Проблема, с которой я сталкиваюсь, - это извлечение текста и изображений из файлов PDF.
Я пробовал несколько инструментов, которые преобразуют pdf в html, но они больше ориентированы на визуальное воспроизведение файла (абсолютное позиционирование, абзацы разбиты на строки). Мне нужно что-то, чтобы предоставить мне поток абзацев и изображений.
Любые идеи для этого? Я также не против изучить платные инструменты.
Спасибо!
Если вам подходит коммерческий SDK, вы можете воспользоваться конвертером документов LEADTOOLS. Отказ от ответственности: я являюсь сотрудником этого продукта
Document Converter SDK от LEADTOOLS позволяет конвертировать в любой формат документа или растрового изображения, например:
Существует также бесплатная 60-дневная ознакомительная версия , чтобы вы могли попробовать ее перед покупкой.
Отказ от ответственности: я являюсь сотрудником этого продукта
Приложение Apache pdfbox может извлекать как тестовые файлы, так и изображения из документов PDF. Это бесплатное программное обеспечение и простое в использовании.
PDFMate PDF Converter Free может это сделать. Запустите программу, выберите TXT в качестве выходного формата и нажмите кнопку «Конвертировать».
Отказ от ответственности: я работаю в Datalogics менеджером по продукту, отвечающим за создание таких продуктов.
Существует ряд инструментов, которые уже созданы для преобразования PDF в HTML, вам действительно нужно создавать их самостоятельно? Или вы ищете что-то, что делает именно то, что вы хотите? Требования немного расплывчаты.
Если вы хотите что-то создать, сделайте себе одолжение и получите надежный SDK для работы с PDF-файлами и работы с извлечением текста и изображений. Существует ряд SDK, которые могут помочь вам в этом (в алфавитном порядке по названию компании).
Если вы ищете инструмент, который выполняет преобразование PDF в HTML для вас, который должен помочь вам на 90% пути, основываясь на том, о чем вы спрашивали, взгляните на наш продукт PDF Alchemist . Он не использует абсолютное позиционирование и восстанавливает текст в порядке чтения (даже если это не так, как он хранится в PDF). Другой вариант - PDFix , я не помню, используют ли они абсолютное позиционирование или нет (или есть ли возможность отключить абсолютное позиционирование).
Райан