Инструмент для оптического распознавания символов (OCR)

Question

Инструмент для оптического распознавания символов (OCR)

окр
ОСХ
линукс
бесплатно
сканирование
Софт

Qwertie

Есть ли инструмент, который может распознавать текст в отсканированном документе (PNG, JPG) и преобразовывать его в обычный текстовый файл (DOC, TXT)?

Должно

Работа в Ubuntu и Mac OS X
Буть свободен
Работа с наиболее распространенными типами изображений

Ответы (6)

Инструмент для оптического распознавания символов (OCR)

Николя Рауль · Answer 1

Николя Рауль

Я успешно использовал Tesseract для оптического распознавания символов в Ubuntu.

Это бесплатно, с открытым исходным кодом и поддерживается Google.

Хотя это неплохо с латинскими символами и цифрами, например, с японскими символами у него проблемы. Возможно, вам придется сначала передать ему обучающие данные в зависимости от того, что вы хотите распознать.

Он может читать из множества различных форматов изображений.

Пользовательский интерфейс Тессеракт

Иззи

Хорошая рекомендация! Я тоже это использую. Перешел с Cuneiform — это было неплохо, но Tesseract работает для меня намного лучше. Однако, используя его из командной строки :) Может быть, вы могли бы указать, откуда берется этот графический интерфейс и какие пакеты устанавливать (и apt-getт. д.)?

Николя Рауль

Скриншот не мой, на самом деле, но он показывает идею. Я использую Tesseract в качестве библиотеки для Alfresco для выполнения полнотекстового поиска в огромном количестве документов.

Иззи

Я понимаю. Спасибо за ответ; Я подумал, что мог что-то пропустить, так как я не видел GUI, упомянутого apt-cache search tesseract:)

Франк Дернонкур

+1 Tesseract — самый точный механизм распознавания текста с открытым исходным кодом (например , splitbrain.org/blog/2010-06/15-linux_ocr_software_comparison )

Охотник на оленей

Слова «поддерживается Google» довольно пугающие, учитывая не совсем звездный послужной список бегемота в поддержке прошлых проектов.

Николя Рауль

@DeerHunter: они могут сбросить его, когда закончат сканирование всех библиотек :-)

Пасьер

@NicolasRaoul, на самом деле у них, вероятно, есть внутренняя закрытая версия, которую они используют сами; Открытый исходный код — это способ Google получать, а не отдавать. Так же, как танец Chrome--Chromium.

Сет · Answer 2

Я использую OCRfeeder для этого. Он бесплатный, с открытым исходным кодом и работает в Linux (к сожалению, нет предварительно скомпилированного исполняемого файла для OSX, хотя вы можете собрать его из исходного кода). По умолчанию он работает на движке Tesseract, хотя это можно изменить.

^{Скриншоты (нажмите на них, чтобы увеличить изображения)}

У меня нет большого опыта работы с чем-либо, кроме простого английского, но он хорошо работает для меня и может читать большинство форматов изображений. Он также может открывать для чтения PDF-файлы.

поддерживает импорт PDF или графических файлов (последние в разных форматах, таких как JPG, PNG, PPM, PNM и др.)
прямая поддержка сканера (однако без автоматической подачи, поэтому каждую страницу необходимо добавлять отдельно)
поддерживает небумагу для постобработки отсканированных изображений (для их корректировки)
поддерживает несколько бэкэндов OCR, таких как Tesseract , CuneiForm , GOCR , Ocrad
Вы можете редактировать распознанный текст напрямую, пока рядом отображается соответствующее изображение. Поддерживает автокоррекцию словарей (по крайней мере, в Linux; на других системах проверить не удалось) — см. правую панель на обоих скриншотах выше.
Экспорт в PDF (с возможностью поиска!), ODT (текст OpenDocument, например, для LibreOffice/OpenOffice, который затем можно использовать для преобразования .docпри необходимости), обычный текст ( .txt) и т. д.

Спасибо, что подняли это! Я уже использую tesseract из командной строки (и мне это нравится). Попробую OCRfeeder. Может быть, вы можете рассказать что-нибудь о том, как он работает с многостраничными документами (да?), и поддерживает ли он прямую поддержку сканера (т.е. я мог бы положить стопку бумаги в автоподатчик, нажать кнопку, и на выходе многостраничный PDF)?
@Izzy Только что вспомнил твой комментарий. Я не использовал его для многостраничных документов (мне не так много нужно сканировать), поэтому YMMV. Спасибо за редактирование.
Пожалуйста! Я только что попробовал это на одном пока. Нравится, как можно делать исправления (бок о бок). Экспортированные PDF-файлы довольно велики; возможно, я пропустил там опцию «сжать» для изображений.

БаратВутукури · Answer 3

Я использую Microsoft OneNote в качестве инструмента OCR. При щелчке правой кнопкой мыши по изображению он может копировать весь текст в изображениях, а также имеет возможность искать текст в изображении. Он бесплатный и точный, работает в Windows и поддерживает практически все форматы изображений.

Вы можете скопировать текст внутри и вставить его в текстовый документ.

Я не уверен, работает ли это в Ubuntu или нет через Wine, поскольку Microsoft Office теперь доступен для Mac OS, OneNote будет работать на нем.

Бонус в том, что он поддерживает несколько языков :) Английский, французский, испанский также

Кенорб · Answer 4

Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, что у них есть графический интерфейс):

ГОКР

Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR можно использовать с различными внешними интерфейсами, что упрощает перенос на разные ОС и архитектуры. Он может открывать множество различных форматов изображений, и его качество улучшается с каждым днем.
OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)

Система OCR, ориентированная на использование крупномасштабного машинного обучения для решения проблем при анализе документов, с подключаемым анализом макета, подключаемым распознаванием символов, статистическим моделированием естественного языка и многоязычными возможностями.

Движок OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макета.

OCRopus — это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных усилий по преобразованию больших объемов документов. Мы ожидаем, что она также станет отличной системой распознавания текста для многих других приложений.
Tessnet2 (с открытым исходным кодом, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLI)

Tesseract — это OCR-движок C++ с открытым исходным кодом. Tessnet2 — это сборка .NET, предоставляющая очень простые методы распознавания текста. Tessnet2 находится под лицензией Apache 2 (как и tesseract), что означает, что вы можете использовать его по своему усмотрению, включая коммерческие продукты.

Несколько других: ABBYY CLI OCR для Linux , Asprise OCR

Для получения более полного списка проверьте: Список программного обеспечения для оптического распознавания символов в Википедии .

См. также: wanghaisheng/awesome-ocr— Кураторский список перспективных ресурсов OCR на GitHub.

Связанная тема: Какое лучшее и самое простое решение для оптического распознавания символов?

Иван Чау · Answer 5

Screenotate — это приложение для macOS и Windows.

Он использует хорошо разработанный механизм распознавания текста Tesseract от Google.
Каждый снимок экрана представляет собой автономный HTML-файл.

Вишал Наяк · Answer 6

OCR-инструмент нашего dhurvaa преобразует любое изображение, отсканированный документ или распечатанный PDF-файл в редактируемый текст:

https://dhurvaa.com/online_ocr_tool

Работает за секунды.

Инструмент для оптического распознавания символов (OCR)

Qwertie

Ответы (6)

Николя Рауль

Иззи

Николя Рауль

Иззи

Франк Дернонкур

Охотник на оленей

Николя Рауль

Пасьер

Сет

Иззи

Сет

Иззи

БаратВутукури

Кенорб

Иван Чау

Вишал Наяк

Измерение расстояний и площадей геометрических фигур

Какие инструменты могут превратить отсканированные бумажные документы в текстовый PDF-файл с возможностью поиска на Mac?

Запись части экрана в виде анимированного GIF

Есть ли программа для управления другими компьютерами с другого компьютера?

Бесплатное программное обеспечение OCR, которое делает PDF доступным для поиска (с текстом, доступным для поиска, в нужном месте)

Скачать клиент с возможностью возобновления

Программное обеспечение для размещения приложения GAE на моем собственном сервере

Инструмент для разделения страниц PDF на отдельные файлы

Просматривайте пропускную способность сети в реальном времени на процесс в оболочке Linux

Анализатор APK для Linux