У меня есть около 200 отсканированных PDF-файлов, которые необходимо систематически удалять. Эта информация для удаления включает в себя набор цифр, длина которых может различаться.
Текущий план состоит в том, чтобы распечатать каждый документ, удалить информацию и повторно отсканировать его. Я надеялся, что есть способ автоматизировать этот процесс.
Я попытался использовать OCR Adobe Acrobat Pro, а затем найти и заменить функции в Word, но столкнулся с несколькими проблемами. Я не могу понять, как искать номер в нескольких документах Word, и когда я использую OCR для документов в Adobe Acrobat, он находит изображения на странице и преобразует их в текст.
Если есть какое-то программное обеспечение, которое может автоматизировать это, было бы очень полезно.
Из вашего вопроса/комментариев я понял, что PDF-файлы содержат только изображения.
1) Извлеките изображения с помощью экстрактора изображений PDF, такого как IweSoft PDF Image Extractor .
2) Размыть соответствующий текст на изображениях
3) Соберите изображения обратно в новый PDF-файл, используя любой инструмент, который вам нравится (для создания PDF-файлов существуют сотни вариантов, поэтому я не буду вдаваться в подробности)
pdfimages
пакетного процесса и преобразовать все обратно в один PDF-файл с помощью конвертации/могрификации ImageMagick.
Тимрик
Квантовый парень01
Тимрик