Существует ли какое-либо бесплатное программное обеспечение для распознавания текста (для Linux и/или Windows), которое может принимать отсканированный PDF-документ в качестве входных данных и выводить PDF-файл с возможностью поиска, как это делает Adobe Acrobat?
Что касается PDF с возможностью поиска, я имел в виду, что текст, обработанный методом оптического распознавания символов, невидим поверх исходного текста и может быть выбран мышью и скопирован.
Я знаю, что gscan2pdf в Linux может делать что-то подобное, но текст помещается в верхний левый угол страницы и слишком мал, совсем не синхронизирован с текстом на странице, отсканированной в фоновом режиме. Это связано с тем, что gscan2pdf передает всю страницу механизму OCR. Он должен разбивать изображение на небольшие изображения с отдельными строками текста или небольшими абзацами для отправки в программное обеспечение OCR.
Инструмент, который позволяет это сделать, — PDF-XChange Viewer . Бесплатная версия позволит вам распознавать документ на разных языках (вы можете бесплатно загрузить дополнительные языковые пакеты) и добавлять текст с распознанным текстом в качестве наложенного текстового слоя, который вы можете копировать и выполнять поиск с помощью CTRL+F.
PRO
значок (доступно только в версии Pro), но вы можете их скрытьЧего нет:
C:\Program Files\Tracker Software\PDF Viewer\ocrdats
Попробуйте pdfsandwich
. Из справочной страницы:
pdfsandwich генерирует "сэндвич" OCR pdf файлы, т.е. pdf файлы, которые содержат только изображения (без текста), будут обработаны оптическим распознаванием символов (OCR), и текст будет добавлен на каждую страницу невидимо "за" изображениями.
pdfsandwich — это утилита командной строки. Если у вас есть отсканированный pdf-файл, например этот:
alice.pdf
(который является первой главой романа, о котором вы, возможно, слышали), вызовите pdfsandwich следующим образом:pdfsandwich alice.pdf
Это создаст файл,
alice_ocr.pdf
который выглядит как исходный файл, но распознанный текст будет помещен за отсканированными изображениями. Теперь вы можете выполнять полнотекстовый поиск или выделять текстовые области.
Другой вариант может быть OCRmyPDF
.
Более новая версия Tesseract (3.03 RC на момент написания этой статьи , 2014 год) умеет так:
Это команда:
tesseract -l <lang> input.tif output pdf
pypdfocr
это то, что сработало для меня. Это скрипт Python, оптимизирующий использование Tesseract в целом. После установки зависимостей (в Linux это намного проще) это так же просто, как ввести:
pypdfocr myfile.pdf
И открытие myfile_ocr.pdf
через некоторое время.
Я использую Microsoft OneNote в качестве инструмента OCR. При щелчке правой кнопкой мыши по изображению он может копировать весь текст в изображениях, а также имеет возможность искать текст в изображении. Он бесплатный и точный, работает в Windows и поддерживает практически все форматы изображений.
Он также может выполнять поиск по файлам PDF и изображениям в файлах PDF.
Бонус в том, что он поддерживает несколько языков :) Английский, французский, испанский также
https://www.microsoft.com/en-us/store/p/leadtools-ocr/9wzdncrdr0d5 — это небольшое простое приложение WinRT (отлично работает и на Win10), которое ничего не делает, кроме как берет изображение или PDF и выводит сэндвич PDF или текст. Это довольно уродливо и не имеет абсолютно никакой конфигурации, но отлично справляется с этой маленькой задачей.
Вы можете получить доступный для поиска текст с помощью Google Диска.
Сначала выберите настройку ключа. В разделе «Общие» в настройках Google Диска установите флажок «Преобразовать загруженные файлы: преобразовать загруженные файлы в формат редактора Google Docs».
Теперь загрузите PDF-файл на свой Google Диск (нажмите «новый», затем «загрузить файл»). Когда загрузка будет завершена (это может занять минуту или две), щелкните ее правой кнопкой мыши. (Если у вас возникли проблемы с его поиском, попробуйте нажать «Недавние» на левой боковой панели.) Как я уже говорил, щелкните правой кнопкой мыши загруженный вами PDF-файл и выберите «Открыть с помощью... Google Docs». Теперь у вас будет текст с возможностью поиска.
Другой вариант — pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr ), который основан на Tesseract-OCR и может работать в операционных системах Windows, MacOS и Linux.
Отказ от ответственности: я разработчик pdf2pdfocr.
В то время как другие ответы в этой теме посвящены настольному программному обеспечению, я добился большого успеха с этим веб-сервисом: http://www.searchablepdfs.org/
Он позволяет загружать отсканированный документ в формате PDF и создает «сэндвич PDF» со встроенным текстом OCR, который можно копировать/вставлять.
Плюсы:
tesseract
, о котором упоминал Корнелиус)Минусы:
Еще два варианта:
1) Онлайн: www.sandwichpdf.com
2) Рабочий стол (несколько ОС): NAPS2 — https://www.naps2.com/
Посмотрите на OCRvision . OCRvision — это программа для работы с PDF с возможностью поиска . Он может автоматически преобразовывать любые отсканированные документы в папку в PDF с возможностью поиска. Он поддерживает многоязычное распознавание символов. Его можно настроить как для отсканированных PDF-файлов, так и для файлов изображений, а затем преобразовать в PDF-файл с возможностью поиска.
Отказ от ответственности: я связан с OCRvision как разработчик
Николя Рауль
Корнелиус
ВикАче
Корнелиус
ВикАче
MadTux