Есть ли инструмент, который может распознавать текст в отсканированном документе (PNG, JPG) и преобразовывать его в обычный текстовый файл (DOC, TXT)?
Должно
Я успешно использовал Tesseract для оптического распознавания символов в Ubuntu.
Это бесплатно, с открытым исходным кодом и поддерживается Google.
Хотя это неплохо с латинскими символами и цифрами, например, с японскими символами у него проблемы. Возможно, вам придется сначала передать ему обучающие данные в зависимости от того, что вы хотите распознать.
Он может читать из множества различных форматов изображений.
Я использую OCRfeeder для этого. Он бесплатный, с открытым исходным кодом и работает в Linux (к сожалению, нет предварительно скомпилированного исполняемого файла для OSX, хотя вы можете собрать его из исходного кода). По умолчанию он работает на движке Tesseract, хотя это можно изменить.
Скриншоты (нажмите на них, чтобы увеличить изображения)
У меня нет большого опыта работы с чем-либо, кроме простого английского, но он хорошо работает для меня и может читать большинство форматов изображений. Он также может открывать для чтения PDF-файлы.
.doc
при необходимости), обычный текст ( .txt
) и т. д.Я использую Microsoft OneNote в качестве инструмента OCR. При щелчке правой кнопкой мыши по изображению он может копировать весь текст в изображениях, а также имеет возможность искать текст в изображении. Он бесплатный и точный, работает в Windows и поддерживает практически все форматы изображений.
Вы можете скопировать текст внутри и вставить его в текстовый документ.
Я не уверен, работает ли это в Ubuntu или нет через Wine, поскольку Microsoft Office теперь доступен для Mac OS, OneNote будет работать на нем.
Бонус в том, что он поддерживает несколько языков :) Английский, французский, испанский также
Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, что у них есть графический интерфейс):
Распознавание символов с открытым исходным кодом. Он преобразует отсканированные изображения текста обратно в текстовые файлы. GOCR можно использовать с различными внешними интерфейсами, что упрощает перенос на разные ОС и архитектуры. Он может открывать множество различных форматов изображений, и его качество улучшается с каждым днем.
OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)
Система OCR, ориентированная на использование крупномасштабного машинного обучения для решения проблем при анализе документов, с подключаемым анализом макета, подключаемым распознаванием символов, статистическим моделированием естественного языка и многоязычными возможностями.
Движок OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макета.
OCRopus — это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных усилий по преобразованию больших объемов документов. Мы ожидаем, что она также станет отличной системой распознавания текста для многих других приложений.
Tessnet2 (с открытым исходным кодом, OCR, Tesseract, .NET, DOTNET, C#, VB.NET, C++/CLI)
Tesseract — это OCR-движок C++ с открытым исходным кодом. Tessnet2 — это сборка .NET, предоставляющая очень простые методы распознавания текста. Tessnet2 находится под лицензией Apache 2 (как и tesseract), что означает, что вы можете использовать его по своему усмотрению, включая коммерческие продукты.
Несколько других: ABBYY CLI OCR для Linux , Asprise OCR
Для получения более полного списка проверьте: Список программного обеспечения для оптического распознавания символов в Википедии .
См. также: wanghaisheng/awesome-ocr
— Кураторский список перспективных ресурсов OCR на GitHub.
Связанная тема: Какое лучшее и самое простое решение для оптического распознавания символов?
Screenotate — это приложение для macOS и Windows.
Он использует хорошо разработанный механизм распознавания текста Tesseract от Google.
Каждый снимок экрана представляет собой автономный HTML-файл.
OCR-инструмент нашего dhurvaa преобразует любое изображение, отсканированный документ или распечатанный PDF-файл в редактируемый текст:
https://dhurvaa.com/online_ocr_tool
Работает за секунды.
Иззи
apt-get
т. д.)?Николя Рауль
Иззи
apt-cache search tesseract
:)Франк Дернонкур
Охотник на оленей
Николя Рауль
Пасьер