Преобразование PDF в текст

У меня есть несколько PDF-документов, содержащих много текста. Я хочу использовать эти тексты в поисковой системе, которую я разрабатываю. Эта поисковая система использует программное обеспечение, которое не может работать с файлами PDF, но может работать с такими форматами, как JSON, XML и текстовые документы.

Что я хочу сделать, так это преобразовать текстовое содержимое PDF в текстовые документы (такие форматы, как JSON, XML, TXT). Также было бы проще для моей работы, если бы она могла преобразовывать текстовое содержимое из одного PDF-файла в несколько текстовых документов. Например, один документ на статью.

Он также должен работать с Windows 10.

Вы заглядывали в Microsoft Store? У них там есть эти приложения?

Ответы (2)

Согласно Википедии, pdftotext ( https://en.wikipedia.org/wiki/Pdftotext ) — это утилита командной строки с открытым исходным кодом, которая выполняет преобразование из PDF в обычный текст. На официальной странице ( http://www.xpdfreader.com/download.html ) можно загрузить двоичные файлы Windows , включая 32- и 64-разрядные версии.

К сожалению, мне не нужно было делать что-то подобное вам, так что это чисто исследовательская информация. Весь мой опыт работы с ним заключается в том, что я скачал пакет инструментов (15 минут назад) и использовал pdftotext для создания одного файла TXT из PDF, который я очень хорошо знаю, и не было никаких проблем, которые я мог видеть.

Это позволяет выбрать начальную и последнюю страницу для преобразования, так что это может быть полезно для вашего требования «несколько документов», но разделение документов по содержанию, а не по страницам ... Я думаю, вам не повезет найти что-то как это; пользовательский скрипт, который работает с файлами TXT, может быть лучше для этого.

LEADTOOLS ePrint можно использовать для преобразования различных типов документов и файлов, включая PDF в текст. (Отказ от ответственности: я являюсь сотрудником поставщика этого программного обеспечения).

Вам потребуется программа для чтения PDF-файлов, например бесплатная программа Adobe Acrobat Reader, и драйвер принтера LEADTOOLS ePrint, которые должны быть установлены на одном ПК с Windows (работает в Windows 10 и других настольных версиях).

Если исходный PDF-файл содержит фактический текст (доступный для поиска), преобразование можно выполнить напрямую, распечатав его из программы чтения PDF-файлов в драйвер виртуального принтера.

Если исходные файлы содержат изображения текста, вы также можете выполнить преобразование, но вам придется использовать функции OCR в ePrint.

Вы можете найти бесплатную пробную версию этой программы на веб-сайте здесь: https://www.eprintdriver.com/Download

Бесплатная поддержка по электронной почте также доступна даже во время оценки.