У меня есть файлы PDF, которые создаются со сканера. PDF-файлы содержат только изображения.
До сих пор вы не могли копировать и вставлять текст, если вы просматриваете PDF-файл с помощью Acrobat или другого средства просмотра PDF-файлов.
Необходимые функции:
Необязательный:
Мне нужно только поддерживать Linux, никакой другой операционной системы. Предпочтителен открытый исходный код, но рекомендации по коммерческому программному обеспечению также являются правильным ответом.
Решение, которое вы хотите, можно найти на нашем дочернем сайте: как распознать pdf-файл и получить текст, сохраненный в pdf? Цитируя этот ответ :
Лучший и самый простой способ - использовать
pypdfocr
его, не меняя PDF. pypdfocr — это ссылка на модуль Python здесь.pypdfocr your_document.pdf
В конце у вас будет другой
your_document_ocr.pdf
, как вы хотите, с доступным для поиска текстом. Приложение не изменяет качество изображения. Немного увеличивает размер файла, добавляя текст наложения.Я думаю, что команда довольно проста, так как ей не нужен графический интерфейс. Возможно, установка pypdfocr немного более подробная:
sudo dnf -y install tesseract pip install pypdfocr
Я не могу сказать о времени обработки, и, конечно, вам понадобится отдельный инструмент для создания аннотаций, но все остальные ваши требования должны быть полностью выполнены:
В качестве альтернативы, работающего таким же образом, есть еще один модуль Python, который называется ocrmypdf . Это также использует Tesseract для процесса OCR.
Третьим кандидатом может быть pdfsandwich , но он поставляется без компонента Python.
Я лично использую Adobe Creative Cloud — все приложения
https://www.adobe.com/creativecloud/plans.html
Ежемесячная подписка - отменить в любое время.
OCR — качество зависит от количества точек на дюйм при сканировании. Читаемость и качество отсканированного элемента.
Вставляемый текст - да.
Редактируемый исходный текст - да.
Обозначение - Да
К сожалению, не могу ответить на следующее:
Из моего исследования Adobe будет работать на Linux.
Взгляните на Tesseract , программное обеспечение OCR с открытым исходным кодом.
Он поставляется с программой командной строки, а также с привязками Python. Пакеты, доступные в вашем дистрибутиве Linux.
apt-get install tesseract-ocr
#convert pdf to scans.tiff
tesseract scans.tiff out pdf
Этот инструмент на основе Python3 имеет все функции: https://pypi.org/project/ocrmypdf/
гетли
Эди