Инструмент для оптического распознавания символов (OCR)

Есть ли инструмент, который может распознавать текст в отсканированном документе (PNG, JPG) и преобразовывать его в обычный текстовый файл (DOC, TXT)?

Должно

  • Работа в Ubuntu и Mac OS X
  • Буть свободен
  • Работа с наиболее распространенными типами изображений

Ответы (6)

Я успешно использовал Tesseract для оптического распознавания символов в Ubuntu.

Это бесплатно, с открытым исходным кодом и поддерживается Google.

Хотя это неплохо с латинскими символами и цифрами, например, с японскими символами у него проблемы. Возможно, вам придется сначала передать ему обучающие данные в зависимости от того, что вы хотите распознать.

Он может читать из множества различных форматов изображений.

Пользовательский интерфейс Тессеракт

Хорошая рекомендация! Я тоже это использую. Перешел с Cuneiform — это было неплохо, но Tesseract работает для меня намного лучше. Однако, используя его из командной строки :) Может быть, вы могли бы указать, откуда берется этот графический интерфейс и какие пакеты устанавливать (и apt-getт. д.)?
Скриншот не мой, на самом деле, но он показывает идею. Я использую Tesseract в качестве библиотеки для Alfresco для выполнения полнотекстового поиска в огромном количестве документов.
Я понимаю. Спасибо за ответ; Я подумал, что мог что-то пропустить, так как я не видел GUI, упомянутого apt-cache search tesseract:)
+1 Tesseract — самый точный механизм распознавания текста с открытым исходным кодом (например , splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison )
Слова «поддерживается Google» довольно пугающие, учитывая не совсем звездный послужной список бегемота в поддержке прошлых проектов.
@DeerHunter: они могут сбросить его, когда закончат сканирование всех библиотек :-)
@NicolasRaoul, на самом деле у них, вероятно, есть внутренняя закрытая версия, которую они используют сами; Открытый исходный код — это способ Google получать, а не отдавать. Так же, как танец Chrome--Chromium.

Я использую OCRfeeder для этого. Он бесплатный, с открытым исходным кодом и работает в Linux (к сожалению, нет предварительно скомпилированного исполняемого файла для OSX, хотя вы можете собрать его из исходного кода). По умолчанию он работает на движке Tesseract, хотя это можно изменить.

Скриншот Скриншот
Скриншоты (нажмите на них, чтобы увеличить изображения)

У меня нет большого опыта работы с чем-либо, кроме простого английского, но он хорошо работает для меня и может читать большинство форматов изображений. Он также может открывать для чтения PDF-файлы.

  • поддерживает импорт PDF или графических файлов (последние в разных форматах, таких как JPG, PNG, PPM, PNM и др.)
  • прямая поддержка сканера (однако без автоматической подачи, поэтому каждую страницу необходимо добавлять отдельно)
  • поддерживает небумагу для постобработки отсканированных изображений (для их корректировки)
  • поддерживает несколько бэкэндов OCR, таких как Tesseract , CuneiForm , GOCR , Ocrad
  • Вы можете редактировать распознанный текст напрямую, пока рядом отображается соответствующее изображение. Поддерживает автокоррекцию словарей (по крайней мере, в Linux; на других системах проверить не удалось) — см. правую панель на обоих скриншотах выше.
  • Экспорт в PDF (с возможностью поиска!), ODT (текст OpenDocument, например, для LibreOffice/OpenOffice, который затем можно использовать для преобразования .docпри необходимости), обычный текст ( .txt) и т. д.
Спасибо, что подняли это! Я уже использую tesseract из командной строки (и мне это нравится). Попробую OCRfeeder. Может быть, вы можете рассказать что-нибудь о том, как он работает с многостраничными документами (да?), и поддерживает ли он прямую поддержку сканера (т.е. я мог бы положить стопку бумаги в автоподатчик, нажать кнопку, и на выходе многостраничный PDF)?
@Izzy Только что вспомнил твой комментарий. Я не использовал его для многостраничных документов (мне не так много нужно сканировать), поэтому YMMV. Спасибо за редактирование.
Пожалуйста! Я только что попробовал это на одном пока. Нравится, как можно делать исправления (бок о бок). Экспортированные PDF-файлы довольно велики; возможно, я пропустил там опцию «сжать» для изображений.

Я использую Microsoft OneNote в качестве инструмента OCR. При щелчке правой кнопкой мыши по изображению он может копировать весь текст в изображениях, а также имеет возможность искать текст в изображении. Он бесплатный и точный, работает в Windows и поддерживает практически все форматы изображений.

Вы можете скопировать текст внутри и вставить его в текстовый документ.

Я не уверен, работает ли это в Ubuntu или нет через Wine, поскольку Microsoft Office теперь доступен для Mac OS, OneNote будет работать на нем.

Бонус в том, что он поддерживает несколько языков :) Английский, французский, испанский также

Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, что у них есть графический интерфейс):

  • ГОКР

    Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR можно использовать с различными внешними интерфейсами, что упрощает перенос на разные ОС и архитектуры. Он может открывать множество различных форматов изображений, и его качество улучшается с каждым днем.

  • OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)

    Система OCR, ориентированная на использование крупномасштабного машинного обучения для решения проблем при анализе документов, с подключаемым анализом макета, подключаемым распознаванием символов, статистическим моделированием естественного языка и многоязычными возможностями.

    Движок OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макета.

    OCRopus — это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных усилий по преобразованию больших объемов документов. Мы ожидаем, что она также станет отличной системой распознавания текста для многих других приложений.

  • Tessnet2 (с открытым исходным кодом, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLI)

    Tesseract — это OCR-движок C++ с открытым исходным кодом. Tessnet2 — это сборка .NET, предоставляющая очень простые методы распознавания текста. Tessnet2 находится под лицензией Apache 2 (как и tesseract), что означает, что вы можете использовать его по своему усмотрению, включая коммерческие продукты.

Несколько других: ABBYY CLI OCR для Linux , Asprise OCR

Для получения более полного списка проверьте: Список программного обеспечения для оптического распознавания символов в Википедии .

См. также: wanghaisheng/awesome-ocr— Кураторский список перспективных ресурсов OCR на GitHub.

Связанная тема: Какое лучшее и самое простое решение для оптического распознавания символов?

Screenotate — это приложение для macOS и Windows.

Он использует хорошо разработанный механизм распознавания текста Tesseract от Google.
Каждый снимок экрана представляет собой автономный HTML-файл.

OCR-инструмент нашего dhurvaa преобразует любое изображение, отсканированный документ или распечатанный PDF-файл в редактируемый текст:

https://dhurvaa.com/online_ocr_tool

Работает за секунды.