Удаление следов ручкой с отсканированной копии книги

У меня есть отсканированная копия книги, в которой многие строки подчеркнуты ручкой, на полях тоже есть пометки. Мне нужна программа для удаления этих меток или для извлечения текста без потери форматирования и сохранения его в виде PDF-документа. Книга была напечатана на темной бумаге. Моя ОС Windows 7. Буду очень благодарен за рекомендации.

Маркировка ручкой того же цвета, что и реальный текст?
Нет, маркировка темно-синяя, а текст черный.

Ответы (1)

ImageMagick convertможно использовать в пакетном режиме, чтобы отфильтровать пометки пера и в то же время уменьшить изображения до монохромных (в любом случае обычно лучше для оптического распознавания символов). Я бы сначала выбрал несколько типичных изображений, сканов и протестировал, чтобы получить нужные значения фильтра, GIMP можно использовать для выборки цвета (цветов) чернил или вы можете использовать функцию гистограммы ImageMagick для их идентификации.

ImageMagik это:

  • Бесплатно, бесплатно и с открытым исходным кодом.
  • Кроссплатформенность (Windows, Linux и OS-X)
  • Очень гибкая и мощная программа для работы с изображениями из командной строки.
  • Он может даже собрать изображения страниц в файл PDF.

Но файл PDF будет одним из очищенных отсканированных изображений. Чтобы сделать это доступным для поиска, вам нужно будет запустить программу OCR (оптическое распознавание символов) на очищенных изображениях.

OCR имеет различный уровень успеха в зависимости от качества изображений, используемого шрифта (шрифтов), количества диаграмм, обучения программы (некоторые из них можно обучить) и степени неясности текста. многие программы OCR пытаются исправить на основе правописания и контекста - если вы, например, OCR изучаете науку, математику или психологию, вы можете ожидать много ошибок, поскольку есть много терминологии, которая не соответствует стандартному словарю английского языка. .

Tesseract стоит посмотреть для выполнения OCR. Это:

  • Бесплатно, бесплатно и с открытым исходным кодом.
  • Кроссплатформенность (Windows, Linux и OS-X)
  • Очень гибкий и мощный
  • Обрабатывает символы Юникода UTF-8
  • Может распознавать более 100 языков из коробки
  • Может выводить в обычный текст, hocr (html), pdf, tsv и pdf с невидимым текстом.
  • Можно обучать для улучшения результатов

PS:

Я должен сказать, что в большинстве случаев, учитывая время и усилия, необходимые для написания серьезной книги, вероятно, имеет смысл потратить достаточно времени на работу за барной стойкой или почти на любую работу с минимальной заработной платой с частичной занятостью, чтобы купить бренд- новая копия той же книги, в виде электронной книги или pdf, если таковая имеется, от издателей.