Нужна программа, помогающая удалить информацию из отсканированных документов

Question

Нужна программа, помогающая удалить информацию из отсканированных документов

окр
пдф
сканирование
Софт

Квантовый парень01

У меня есть около 200 отсканированных PDF-файлов, которые необходимо систематически удалять. Эта информация для удаления включает в себя набор цифр, длина которых может различаться.

Текущий план состоит в том, чтобы распечатать каждый документ, удалить информацию и повторно отсканировать его. Я надеялся, что есть способ автоматизировать этот процесс.

Я попытался использовать OCR Adobe Acrobat Pro, а затем найти и заменить функции в Word, но столкнулся с несколькими проблемами. Я не могу понять, как искать номер в нескольких документах Word, и когда я использую OCR для документов в Adobe Acrobat, он находит изображения на странице и преобразует их в текст.

Если есть какое-то программное обеспечение, которое может автоматизировать это, было бы очень полезно.

Тимрик

Всегда ли эти цифры находятся в одном и том же месте на странице (например, в правом нижнем углу) или они находятся в тексте?

Квантовый парень01

Они всегда находятся примерно в одном и том же месте. Однако это отсканированные документы, поэтому невозможно гарантировать точное местонахождение.

Тимрик

Я думал, что размыть фиксированное выделение на всех изображениях будет проще, чем печать и распознавание текста.

Ответы (1)

Нужна программа, помогающая удалить информацию из отсканированных документов

Всегда ли эти цифры находятся в одном и том же месте на странице (например, в правом нижнем углу) или они находятся в тексте?
Они всегда находятся примерно в одном и том же месте. Однако это отсканированные документы, поэтому невозможно гарантировать точное местонахождение.
Я думал, что размыть фиксированное выделение на всех изображениях будет проще, чем печать и распознавание текста.

пользователь416 · Answer 1

Из вашего вопроса/комментариев я понял, что PDF-файлы содержат только изображения.

1) Извлеките изображения с помощью экстрактора изображений PDF, такого как IweSoft PDF Image Extractor .

2) Размыть соответствующий текст на изображениях

3) Соберите изображения обратно в новый PDF-файл, используя любой инструмент, который вам нравится (для создания PDF-файлов существуют сотни вариантов, поэтому я не буду вдаваться в подробности)

Проблема, которую я обнаружил, заключается в том, что файлы PDF могут состоять из нескольких страниц, и когда они преобразуются в изображения, они разделяются. Я не могу найти программу, которая распознает эти изображения как часть одного файла и пакетно конвертирует их обратно в pdf.
Я предполагал одно изображение на странице. Раньше я использовал экстрактор (забыл название), который последовательно называл изображения.
В Linux вы можете извлечь изображения с помощью pdfimagesпакетного процесса и преобразовать все обратно в один PDF-файл с помощью конвертации/могрификации ImageMagick.

Нужна программа, помогающая удалить информацию из отсканированных документов

Квантовый парень01

Тимрик

Квантовый парень01

Тимрик

Ответы (1)

пользователь416

Квантовый парень01

пользователь416

Пабло А

Какие инструменты могут превратить отсканированные бумажные документы в текстовый PDF-файл с возможностью поиска на Mac?

Сканировать текстовый документ в PDF с помощью OCR

Ищете программное обеспечение для сканирования или преобразования в PDF с возможностью поиска и подписи

Конвертер PDF в Mobi

Сканирование ответов с несколькими вариантами ответов с бумаги

Простое сканирование в PDF

Создание PDF-файлов с возможностью копирования и вставки из отсканированных изображений

OS X: есть ли конвертер формата PDF в Kindle для чтения технических материалов на Amazon Kindle?

Просмотрщик документов

Бесплатное программное обеспечение OCR, которое делает PDF доступным для поиска (с текстом, доступным для поиска, в нужном месте)