Бесплатное программное обеспечение OCR, которое делает PDF доступным для поиска (с текстом, доступным для поиска, в нужном месте)

Question

Бесплатное программное обеспечение OCR, которое делает PDF доступным для поиска (с текстом, доступным для поиска, в нужном месте)

Корнелиус

Существует ли какое-либо бесплатное программное обеспечение для распознавания текста (для Linux и/или Windows), которое может принимать отсканированный PDF-документ в качестве входных данных и выводить PDF-файл с возможностью поиска, как это делает Adobe Acrobat?

Что касается PDF с возможностью поиска, я имел в виду, что текст, обработанный методом оптического распознавания символов, невидим поверх исходного текста и может быть выбран мышью и скопирован.

Я знаю, что gscan2pdf в Linux может делать что-то подобное, но текст помещается в верхний левый угол страницы и слишком мал, совсем не синхронизирован с текстом на странице, отсканированной в фоновом режиме. Это связано с тем, что gscan2pdf передает всю страницу механизму OCR. Он должен разбивать изображение на небольшие изображения с отдельными строками текста или небольшими абзацами для отправки в программное обеспечение OCR.

Николя Рауль

На каком языке вы хотите OCR? Английский? Французский? Японский?

Корнелиус

румынский и английский. Tesseract может это сделать, но я не могу вставить текст в PDF.

ВикАче

Lios должен это сделать, но у меня нет личного опыта работы с софтом.

Корнелиус

@VicAche Я пробовал Lios с Tesseract, но он вылетает при экспорте в PDF. Интерфейс похож на OCR Feeder , но более сложный. В любом случае, спасибо за ваше предложение. Никогда раньше не слышал о Лиосе.

ВикАче

@Cornelius, это FLOSS, вы можете сообщить об ошибках, с которыми столкнулись.

MadTux

Взгляните на этот вопрос на AskUbuntu: askubuntu.com/questions/16268/…

Ответы (11)

Бесплатное программное обеспечение OCR, которое делает PDF доступным для поиска (с текстом, доступным для поиска, в нужном месте)

На каком языке вы хотите OCR? Английский? Французский? Японский?
румынский и английский. Tesseract может это сделать, но я не могу вставить текст в PDF.
Lios должен это сделать, но у меня нет личного опыта работы с софтом.
@VicAche Я пробовал Lios с Tesseract, но он вылетает при экспорте в PDF. Интерфейс похож на OCR Feeder , но более сложный. В любом случае, спасибо за ваше предложение. Никогда раньше не слышал о Лиосе.
@Cornelius, это FLOSS, вы можете сообщить об ошибках, с которыми столкнулись.
Взгляните на этот вопрос на AskUbuntu: askubuntu.com/questions/16268/…

Гвидо Доменичи · Answer 1

Инструмент, который позволяет это сделать, — PDF-XChange Viewer . Бесплатная версия позволит вам распознавать документ на разных языках (вы можете бесплатно загрузить дополнительные языковые пакеты) и добавлять текст с распознанным текстом в качестве наложенного текстового слоя, который вы можете копировать и выполнять поиск с помощью CTRL+F.

быстрый просмотрщик PDF с множеством функций
быстрый механизм OCR (если вы не выберете максимальную точность)
рядом со многими опциями есть PROзначок (доступно только в версии Pro), но вы можете их скрыть
управление цветом и пользовательские настройки экрана DPI
Приложение только для Windows, которое, кажется, не работает в Wine (просмотрщик работает, но функция OCR приводит к сбою)

Чего нет:

OCR не использует преимущества нескольких ядер
OCR не определяет стили символов (жирный, курсив) или функция копирования их теряет
он не использует правильные румынские диакритические знаки , но это можно исправить, если вы скопируете текст в редакторе и выполните поиск и замену:

введите описание изображения здесь

Хорошее программное обеспечение. Я обновил ваш ответ своим опытом работы с ним до сих пор.
На самом деле работает с Wine 1.5.28... Не с другими версиями. К счастью, PlayOnLinux позволяет вам использовать несколько версий Wine.
@AndreaLazzarotto для меня это работало безупречно в Wine 1.8.
@Корнелиус, ты прав. Недавно я попробовал новую версию PDF Xchange Viewer с Wine 1.9, и теперь она работает. Но раньше этого не было, я думаю, они также обновили программу, и это не только из-за лучшего вина.
Средство просмотра снято с производства, но его все еще можно загрузить на странице tracker-software.com/product/pdf-xchange-viewer/…
Кажется, работает с портативной версией 2.5.0322.7 и вином 2.0.3. путь распознаванияC:\Program Files\Tracker Software\PDF Viewer\ocrdats

ученик · Answer 2

Попробуйте pdfsandwich. Из справочной страницы:

pdfsandwich генерирует "сэндвич" OCR pdf файлы, т.е. pdf файлы, которые содержат только изображения (без текста), будут обработаны оптическим распознаванием символов (OCR), и текст будет добавлен на каждую страницу невидимо "за" изображениями.

pdfsandwich — это утилита командной строки. Если у вас есть отсканированный pdf-файл, например этот: alice.pdf(который является первой главой романа, о котором вы, возможно, слышали), вызовите pdfsandwich следующим образом:
pdfsandwich alice.pdf
Это создаст файл, alice_ocr.pdfкоторый выглядит как исходный файл, но распознанный текст будет помещен за отсканированными изображениями. Теперь вы можете выполнять полнотекстовый поиск или выделять текстовые области.

Другой вариант может быть OCRmyPDF.

Корнелиус · Answer 3

Более новая версия Tesseract (3.03 RC на момент написания этой статьи , 2014 год) умеет так:

бесплатный, с открытым исходным кодом и кросс-платформенный
начиная с версии 3.03 доступен вывод PDF
программное обеспечение командной строки
поддержка нескольких языков
к сожалению, ввод одного изображения, поэтому для создания полного документа необходимо создать пакетный скрипт для преобразования изображения каждой страницы в PDF с возможностью поиска. После этого PDF-страницы должны быть объединены в один PDF-файл с помощью таких инструментов, как pdftk .

Это команда:

tesseract -l <lang> input.tif output pdf

Обратите внимание, что для использования этого подхода входной PDF-файл должен быть сначала растрирован, так как tesseract не получит PDF-файл в качестве входных данных.

Зарот · Answer 4

pypdfocrэто то, что сработало для меня. Это скрипт Python, оптимизирующий использование Tesseract в целом. После установки зависимостей (в Linux это намного проще) это так же просто, как ввести:

pypdfocr myfile.pdf

И открытие myfile_ocr.pdfчерез некоторое время.

БаратВутукури · Answer 5

Я использую Microsoft OneNote в качестве инструмента OCR. При щелчке правой кнопкой мыши по изображению он может копировать весь текст в изображениях, а также имеет возможность искать текст в изображении. Он бесплатный и точный, работает в Windows и поддерживает практически все форматы изображений.

Он также может выполнять поиск по файлам PDF и изображениям в файлах PDF.

Бонус в том, что он поддерживает несколько языков :) Английский, французский, испанский также

Джеймс Полли · Answer 6

https://www.microsoft.com/en-us/store/p/leadtools-ocr/9wzdncrdr0d5 — это небольшое простое приложение WinRT (отлично работает и на Win10), которое ничего не делает, кроме как берет изображение или PDF и выводит сэндвич PDF или текст. Это довольно уродливо и не имеет абсолютно никакой конфигурации, но отлично справляется с этой маленькой задачей.

aparente001 · Answer 7

Вы можете получить доступный для поиска текст с помощью Google Диска.

Сначала выберите настройку ключа. В разделе «Общие» в настройках Google Диска установите флажок «Преобразовать загруженные файлы: преобразовать загруженные файлы в формат редактора Google Docs».

Теперь загрузите PDF-файл на свой Google Диск (нажмите «новый», затем «загрузить файл»). Когда загрузка будет завершена (это может занять минуту или две), щелкните ее правой кнопкой мыши. (Если у вас возникли проблемы с его поиском, попробуйте нажать «Недавние» на левой боковой панели.) Как я уже говорил, щелкните правой кнопкой мыши загруженный вами PDF-файл и выберите «Открыть с помощью... Google Docs». Теперь у вас будет текст с возможностью поиска.

Лео Кардосо · Answer 8

Другой вариант — pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr ), который основан на Tesseract-OCR и может работать в операционных системах Windows, MacOS и Linux.

Отказ от ответственности: я разработчик pdf2pdfocr.

Кальвин Янг · Answer 9

В то время как другие ответы в этой теме посвящены настольному программному обеспечению, я добился большого успеха с этим веб-сервисом: http://www.searchablepdfs.org/

Он позволяет загружать отсканированный документ в формате PDF и создает «сэндвич PDF» со встроенным текстом OCR, который можно копировать/вставлять.

Плюсы:

Быстро
Высококачественное распознавание текста OCR (результаты, которые я получил, были по крайней мере такими же хорошими, как и те, которые я смог получить от использования tesseract, о котором упоминал Корнелиус)
Кроссплатформенность (это веб-приложение, поэтому вам не нужно самостоятельно устанавливать какое-либо программное обеспечение)
Свободно

Минусы:

Поддерживает только английские документы
Обрабатывает только до 10 страниц в файле

кпк · Answer 10

Еще два варианта:

1) Онлайн: www.sandwichpdf.com

2) Рабочий стол (несколько ОС): NAPS2 — https://www.naps2.com/

КодированиеЛюбовь · Answer 11

Посмотрите на OCRvision . OCRvision — это программа для работы с PDF с возможностью поиска . Он может автоматически преобразовывать любые отсканированные документы в папку в PDF с возможностью поиска. Он поддерживает многоязычное распознавание символов. Его можно настроить как для отсканированных PDF-файлов, так и для файлов изображений, а затем преобразовать в PDF-файл с возможностью поиска.

Отказ от ответственности: я связан с OCRvision как разработчик

Бесплатное программное обеспечение OCR, которое делает PDF доступным для поиска (с текстом, доступным для поиска, в нужном месте)

Корнелиус

Николя Рауль

Корнелиус

ВикАче

Корнелиус

ВикАче

MadTux

Ответы (11)

Гвидо Доменичи

Корнелиус

Андреа Лаззаротто

Корнелиус

Андреа Лаззаротто

Тобиас Кинцлер

Иван Чау

ученик

Корнелиус

ммс

Зарот

БаратВутукури

Джеймс Полли

aparente001

Лео Кардосо

Кальвин Янг

кпк

КодированиеЛюбовь

Существуют ли другие продукты, помимо продуктов Adobe, которые поддерживают ClearScan или аналогичные продукты?

Программа чтения PDF для Windows с поддержкой аннотаций и комментариев (на боковой панели)

Программное обеспечение PDF-принтера для печати веб-сайта в формате PDF с гиперссылками

Легкое программное обеспечение Windows для печати в PDF

Программное обеспечение для преобразования .NEF в .JPG

Ищу замену Adobe Reader

Конвертер Microsoft Word в PDF

Инструмент для репликации компьютера с двойной загрузкой Windows/Linux.

Создание PDF-файлов с возможностью копирования и вставки из отсканированных изображений

Android-телефон в качестве дополнительного экрана