У меня есть отсканированная копия книги, в которой многие строки подчеркнуты ручкой, на полях тоже есть пометки. Мне нужна программа для удаления этих меток или для извлечения текста без потери форматирования и сохранения его в виде PDF-документа. Книга была напечатана на темной бумаге. Моя ОС Windows 7. Буду очень благодарен за рекомендации.
ImageMagick convert
можно использовать в пакетном режиме, чтобы отфильтровать пометки пера и в то же время уменьшить изображения до монохромных (в любом случае обычно лучше для оптического распознавания символов). Я бы сначала выбрал несколько типичных изображений, сканов и протестировал, чтобы получить нужные значения фильтра, GIMP можно использовать для выборки цвета (цветов) чернил или вы можете использовать функцию гистограммы ImageMagick для их идентификации.
ImageMagik это:
Но файл PDF будет одним из очищенных отсканированных изображений. Чтобы сделать это доступным для поиска, вам нужно будет запустить программу OCR (оптическое распознавание символов) на очищенных изображениях.
OCR имеет различный уровень успеха в зависимости от качества изображений, используемого шрифта (шрифтов), количества диаграмм, обучения программы (некоторые из них можно обучить) и степени неясности текста. многие программы OCR пытаются исправить на основе правописания и контекста - если вы, например, OCR изучаете науку, математику или психологию, вы можете ожидать много ошибок, поскольку есть много терминологии, которая не соответствует стандартному словарю английского языка. .
Tesseract стоит посмотреть для выполнения OCR. Это:
Я должен сказать, что в большинстве случаев, учитывая время и усилия, необходимые для написания серьезной книги, вероятно, имеет смысл потратить достаточно времени на работу за барной стойкой или почти на любую работу с минимальной заработной платой с частичной занятостью, чтобы купить бренд- новая копия той же книги, в виде электронной книги или pdf, если таковая имеется, от издателей.
Стив Барнс
Нуар