Бесплатное программное обеспечение OCR, которое делает PDF доступным для поиска (с текстом, доступным для поиска, в нужном месте)

Существует ли какое-либо бесплатное программное обеспечение для распознавания текста (для Linux и/или Windows), которое может принимать отсканированный PDF-документ в качестве входных данных и выводить PDF-файл с возможностью поиска, как это делает Adobe Acrobat?

Что касается PDF с возможностью поиска, я имел в виду, что текст, обработанный методом оптического распознавания символов, невидим поверх исходного текста и может быть выбран мышью и скопирован.

Я знаю, что gscan2pdf в Linux может делать что-то подобное, но текст помещается в верхний левый угол страницы и слишком мал, совсем не синхронизирован с текстом на странице, отсканированной в фоновом режиме. Это связано с тем, что gscan2pdf передает всю страницу механизму OCR. Он должен разбивать изображение на небольшие изображения с отдельными строками текста или небольшими абзацами для отправки в программное обеспечение OCR.

На каком языке вы хотите OCR? Английский? Французский? Японский?
румынский и английский. Tesseract может это сделать, но я не могу вставить текст в PDF.
Lios должен это сделать, но у меня нет личного опыта работы с софтом.
@VicAche Я пробовал Lios с Tesseract, но он вылетает при экспорте в PDF. Интерфейс похож на OCR Feeder , но более сложный. В любом случае, спасибо за ваше предложение. Никогда раньше не слышал о Лиосе.
@Cornelius, это FLOSS, вы можете сообщить об ошибках, с которыми столкнулись.
Взгляните на этот вопрос на AskUbuntu: askubuntu.com/questions/16268/…

Ответы (11)

Инструмент, который позволяет это сделать, — PDF-XChange Viewer . Бесплатная версия позволит вам распознавать документ на разных языках (вы можете бесплатно загрузить дополнительные языковые пакеты) и добавлять текст с распознанным текстом в качестве наложенного текстового слоя, который вы можете копировать и выполнять поиск с помощью CTRL+F.

  • быстрый просмотрщик PDF с множеством функций
  • быстрый механизм OCR (если вы не выберете максимальную точность)
  • рядом со многими опциями есть PROзначок (доступно только в версии Pro), но вы можете их скрыть
  • управление цветом и пользовательские настройки экрана DPI
  • Приложение только для Windows, которое, кажется, не работает в Wine (просмотрщик работает, но функция OCR приводит к сбою)

Чего нет:

  • OCR не использует преимущества нескольких ядер
  • OCR не определяет стили символов (жирный, курсив) или функция копирования их теряет
  • он не использует правильные румынские диакритические знаки , но это можно исправить, если вы скопируете текст в редакторе и выполните поиск и замену:

введите описание изображения здесь

введите описание изображения здесь

Хорошее программное обеспечение. Я обновил ваш ответ своим опытом работы с ним до сих пор.
На самом деле работает с Wine 1.5.28... Не с другими версиями. К счастью, PlayOnLinux позволяет вам использовать несколько версий Wine.
@AndreaLazzarotto для меня это работало безупречно в Wine 1.8.
@Корнелиус, ты прав. Недавно я попробовал новую версию PDF Xchange Viewer с Wine 1.9, и теперь она работает. Но раньше этого не было, я думаю, они также обновили программу, и это не только из-за лучшего вина.
Средство просмотра снято с производства, но его все еще можно загрузить на странице tracker-software.com/product/pdf-xchange-viewer/…
Кажется, работает с портативной версией 2.5.0322.7 и вином 2.0.3. путь распознаванияC:\Program Files\Tracker Software\PDF Viewer\ocrdats

Попробуйте pdfsandwich. Из справочной страницы:

pdfsandwich генерирует "сэндвич" OCR pdf файлы, т.е. pdf файлы, которые содержат только изображения (без текста), будут обработаны оптическим распознаванием символов (OCR), и текст будет добавлен на каждую страницу невидимо "за" изображениями.

pdfsandwich — это утилита командной строки. Если у вас есть отсканированный pdf-файл, например этот: alice.pdf(который является первой главой романа, о котором вы, возможно, слышали), вызовите pdfsandwich следующим образом:

pdfsandwich alice.pdf

Это создаст файл, alice_ocr.pdfкоторый выглядит как исходный файл, но распознанный текст будет помещен за отсканированными изображениями. Теперь вы можете выполнять полнотекстовый поиск или выделять текстовые области.

Другой вариант может быть OCRmyPDF.

Более новая версия Tesseract (3.03 RC на момент написания этой статьи , 2014 год) умеет так:

  • бесплатный, с открытым исходным кодом и кросс-платформенный
  • начиная с версии 3.03 доступен вывод PDF
  • программное обеспечение командной строки
  • поддержка нескольких языков
  • к сожалению, ввод одного изображения, поэтому для создания полного документа необходимо создать пакетный скрипт для преобразования изображения каждой страницы в PDF с возможностью поиска. После этого PDF-страницы должны быть объединены в один PDF-файл с помощью таких инструментов, как pdftk .

Это команда:

tesseract -l <lang> input.tif output pdf
Обратите внимание, что для использования этого подхода входной PDF-файл должен быть сначала растрирован, так как tesseract не получит PDF-файл в качестве входных данных.

pypdfocrэто то, что сработало для меня. Это скрипт Python, оптимизирующий использование Tesseract в целом. После установки зависимостей (в Linux это намного проще) это так же просто, как ввести:

pypdfocr myfile.pdf

И открытие myfile_ocr.pdfчерез некоторое время.

Я использую Microsoft OneNote в качестве инструмента OCR. При щелчке правой кнопкой мыши по изображению он может копировать весь текст в изображениях, а также имеет возможность искать текст в изображении. Он бесплатный и точный, работает в Windows и поддерживает практически все форматы изображений.

Он также может выполнять поиск по файлам PDF и изображениям в файлах PDF.

Бонус в том, что он поддерживает несколько языков :) Английский, французский, испанский также

https://www.microsoft.com/en-us/store/p/leadtools-ocr/9wzdncrdr0d5 — это небольшое простое приложение WinRT (отлично работает и на Win10), которое ничего не делает, кроме как берет изображение или PDF и выводит сэндвич PDF или текст. Это довольно уродливо и не имеет абсолютно никакой конфигурации, но отлично справляется с этой маленькой задачей.

Вы можете получить доступный для поиска текст с помощью Google Диска.

Сначала выберите настройку ключа. В разделе «Общие» в настройках Google Диска установите флажок «Преобразовать загруженные файлы: преобразовать загруженные файлы в формат редактора Google Docs».

Теперь загрузите PDF-файл на свой Google Диск (нажмите «новый», затем «загрузить файл»). Когда загрузка будет завершена (это может занять минуту или две), щелкните ее правой кнопкой мыши. (Если у вас возникли проблемы с его поиском, попробуйте нажать «Недавние» на левой боковой панели.) Как я уже говорил, щелкните правой кнопкой мыши загруженный вами PDF-файл и выберите «Открыть с помощью... Google Docs». Теперь у вас будет текст с возможностью поиска.

Другой вариант — pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr ), который основан на Tesseract-OCR и может работать в операционных системах Windows, MacOS и Linux.

Отказ от ответственности: я разработчик pdf2pdfocr.

В то время как другие ответы в этой теме посвящены настольному программному обеспечению, я добился большого успеха с этим веб-сервисом: http://www.searchablepdfs.org/

Он позволяет загружать отсканированный документ в формате PDF и создает «сэндвич PDF» со встроенным текстом OCR, который можно копировать/вставлять.

Плюсы:

  • Быстро
  • Высококачественное распознавание текста OCR (результаты, которые я получил, были по крайней мере такими же хорошими, как и те, которые я смог получить от использования tesseract, о котором упоминал Корнелиус)
  • Кроссплатформенность (это веб-приложение, поэтому вам не нужно самостоятельно устанавливать какое-либо программное обеспечение)
  • Свободно

Минусы:

  • Поддерживает только английские документы
  • Обрабатывает только до 10 страниц в файле

Еще два варианта:

1) Онлайн: www.sandwichpdf.com

2) Рабочий стол (несколько ОС): NAPS2 — https://www.naps2.com/

Посмотрите на OCRvision . OCRvision — это программа для работы с PDF с возможностью поиска . Он может автоматически преобразовывать любые отсканированные документы в папку в PDF с возможностью поиска. Он поддерживает многоязычное распознавание символов. Его можно настроить как для отсканированных PDF-файлов, так и для файлов изображений, а затем преобразовать в PDF-файл с возможностью поиска.

Отказ от ответственности: я связан с OCRvision как разработчик

Скриншот1 скриншот2