Удаление следов ручкой с отсканированной копии книги

Question

Удаление следов ручкой с отсканированной копии книги

окр
окна
Софт
редактор изображений

Нуар

У меня есть отсканированная копия книги, в которой многие строки подчеркнуты ручкой, на полях тоже есть пометки. Мне нужна программа для удаления этих меток или для извлечения текста без потери форматирования и сохранения его в виде PDF-документа. Книга была напечатана на темной бумаге. Моя ОС Windows 7. Буду очень благодарен за рекомендации.

Стив Барнс

Маркировка ручкой того же цвета, что и реальный текст?

Нуар

Нет, маркировка темно-синяя, а текст черный.

Ответы (1)

Удаление следов ручкой с отсканированной копии книги

Маркировка ручкой того же цвета, что и реальный текст?
Нет, маркировка темно-синяя, а текст черный.

Стив Барнс · Answer 1

ImageMagick convertможно использовать в пакетном режиме, чтобы отфильтровать пометки пера и в то же время уменьшить изображения до монохромных (в любом случае обычно лучше для оптического распознавания символов). Я бы сначала выбрал несколько типичных изображений, сканов и протестировал, чтобы получить нужные значения фильтра, GIMP можно использовать для выборки цвета (цветов) чернил или вы можете использовать функцию гистограммы ImageMagick для их идентификации.

ImageMagik это:

Бесплатно, бесплатно и с открытым исходным кодом.
Кроссплатформенность (Windows, Linux и OS-X)
Очень гибкая и мощная программа для работы с изображениями из командной строки.
Он может даже собрать изображения страниц в файл PDF.

Но файл PDF будет одним из очищенных отсканированных изображений. Чтобы сделать это доступным для поиска, вам нужно будет запустить программу OCR (оптическое распознавание символов) на очищенных изображениях.

OCR имеет различный уровень успеха в зависимости от качества изображений, используемого шрифта (шрифтов), количества диаграмм, обучения программы (некоторые из них можно обучить) и степени неясности текста. многие программы OCR пытаются исправить на основе правописания и контекста - если вы, например, OCR изучаете науку, математику или психологию, вы можете ожидать много ошибок, поскольку есть много терминологии, которая не соответствует стандартному словарю английского языка. .

Tesseract стоит посмотреть для выполнения OCR. Это:

Бесплатно, бесплатно и с открытым исходным кодом.
Кроссплатформенность (Windows, Linux и OS-X)
Очень гибкий и мощный
Обрабатывает символы Юникода UTF-8
Может распознавать более 100 языков из коробки
Может выводить в обычный текст, hocr (html), pdf, tsv и pdf с невидимым текстом.
Можно обучать для улучшения результатов

PS:

Я должен сказать, что в большинстве случаев, учитывая время и усилия, необходимые для написания серьезной книги, вероятно, имеет смысл потратить достаточно времени на работу за барной стойкой или почти на любую работу с минимальной заработной платой с частичной занятостью, чтобы купить бренд- новая копия той же книги, в виде электронной книги или pdf, если таковая имеется, от издателей.

Удаление следов ручкой с отсканированной копии книги

Нуар

Стив Барнс

Нуар

Ответы (1)

Стив Барнс

PS:

Photoshop Экспресс Альтернатива

Фоторедактор: объединение нескольких изображений вместе

Программное обеспечение Windows для автоматической обрезки краев фотографий документов

Бесплатный фоторедактор для Windows

Инструмент OCR для изображений в Windows [дубликат]

Программное обеспечение для массового редактирования изображений

Инструмент для индексации, обработки и общего управления оцифрованными документами.

Бесплатный редактор фото/изображений со слоями и редактируемым текстом в виде слоев

Редактор аннотаций к изображениям и диаграмм

Программа рисования, оптимизированная для сенсорного управления