Нужна программа, помогающая удалить информацию из отсканированных документов

У меня есть около 200 отсканированных PDF-файлов, которые необходимо систематически удалять. Эта информация для удаления включает в себя набор цифр, длина которых может различаться.

Текущий план состоит в том, чтобы распечатать каждый документ, удалить информацию и повторно отсканировать его. Я надеялся, что есть способ автоматизировать этот процесс.

Я попытался использовать OCR Adobe Acrobat Pro, а затем найти и заменить функции в Word, но столкнулся с несколькими проблемами. Я не могу понять, как искать номер в нескольких документах Word, и когда я использую OCR для документов в Adobe Acrobat, он находит изображения на странице и преобразует их в текст.

Если есть какое-то программное обеспечение, которое может автоматизировать это, было бы очень полезно.

Всегда ли эти цифры находятся в одном и том же месте на странице (например, в правом нижнем углу) или они находятся в тексте?
Они всегда находятся примерно в одном и том же месте. Однако это отсканированные документы, поэтому невозможно гарантировать точное местонахождение.
Я думал, что размыть фиксированное выделение на всех изображениях будет проще, чем печать и распознавание текста.

Ответы (1)

Из вашего вопроса/комментариев я понял, что PDF-файлы содержат только изображения.

1) Извлеките изображения с помощью экстрактора изображений PDF, такого как IweSoft PDF Image Extractor .

2) Размыть соответствующий текст на изображениях

3) Соберите изображения обратно в новый PDF-файл, используя любой инструмент, который вам нравится (для создания PDF-файлов существуют сотни вариантов, поэтому я не буду вдаваться в подробности)

Проблема, которую я обнаружил, заключается в том, что файлы PDF могут состоять из нескольких страниц, и когда они преобразуются в изображения, они разделяются. Я не могу найти программу, которая распознает эти изображения как часть одного файла и пакетно конвертирует их обратно в pdf.
Я предполагал одно изображение на странице. Раньше я использовал экстрактор (забыл название), который последовательно называл изображения.
В Linux вы можете извлечь изображения с помощью pdfimagesпакетного процесса и преобразовать все обратно в один PDF-файл с помощью конвертации/могрификации ImageMagick.