Программное обеспечение для редактирования PDF для удаления темных полей сканирования

Предположим, у вас есть файл PDF, полученный в результате сканирования нескольких страниц книги (в формате, меньшем, чем формат сканера по умолчанию (например, 10 см x 20 см и DIN A4)) и что человек, который сканировал, разместил книгу в произвольном месте на сканер. Есть ли инструмент, который либо

  • позволяет автоматически удалять эти поля (просчеты поля маловероятны, но должны быть приняты)
  • позволяет переходить со страницы на страницу и удалять темные поля на основе предложений программы (я не хочу использовать какие-либо инструменты редактирования помимо этого, может быть, исправить предложение, но не определять поля с самого начала с помощью перетаскивание рамки, перемещение линий разделения или что-то подобное)

Преобразование PDF -> изображения -> PDF не должно быть проблемой, и это можно сделать с помощью двух или трех команд в командной строке, поэтому, если для изображений существует пакетное решение, я бы посчитал это решением.

Похоже, что PDF - это все изображения. Один «средний уровень работы», о котором я могу думать, это: экспортировать изображения, а затем пакетно обрабатывать их с помощью программного обеспечения OCR. Но тогда у вас будет текст вместо изображений, и это может зайти слишком далеко для вас.
Фотошоп? Он способен обрабатывать PDF-файлы, и вы можете легко удалить эти нежелательные темные области, я полагаю?
@Neeku Да, но в Photoshop нет автоматизации, которую я описал («Я не хочу использовать какие-либо инструменты редактирования, кроме [автоматически сгенерированного предложения программного обеспечения]»). Я мог использовать любое программное обеспечение для редактирования изображений, даже гораздо менее сложные и/или бесплатные альтернативы Photoshop.
Верно. Не уверен, что понимаю, что вы имеете в виду под автоматизацией, но вы можете создавать макросы (Действия) в Photoshop, чтобы выполнять повторяющиеся действия за вас. Но опять же, да! Я понимаю, что PS больше для изображений, чем для PDF. Кроме того, мне удалось вспомнить название приложения, которое я использовал много лет назад в Windows, Nitro PDF . Не уверен, что мне следует указать это как ответ, так как я не могу вспомнить, была ли у него такая функция, но обычно я был очень доволен редактированием PDF-файлов с его помощью.
Я предполагаю, что GIMP и блендер также имеют много возможностей для сценариев (отличный Python API и/или привязки), но это довольно нетривиально, и я не могу представить, чтобы это было проще в Photoshop. Кроме того, я предполагаю, что запись макросов на основе действий графического интерфейса (в любом приложении) не избавит вас от реализации логики распознавания полей.

Ответы (2)

Попробуйте следующее программное обеспечение:

  • Unpaper [инструмент cmd-line, кросс-платформенный]

    Инструмент постобработки отсканированных листов бумаги, особенно страниц книг, отсканированных с ранее созданных фотокопий. Основная цель — сделать отсканированные страницы книги более читабельными на экране после конвертации в PDF. Кроме того, небумага может быть полезна для повышения качества отсканированных страниц перед оптическим распознаванием символов (OCR). unpaper пытается очистить отсканированные изображения, удаляя темные края, которые появились при сканировании или копировании в областях за пределами фактического содержимого страницы (например, темные области между левой и правой сторонами двустороннего сканирования книжной страницы). ).

    Установка OSX через Homebrew :brew install unpaper

  • Scan Tailor ( GitHub ) [Windows/OSX/Linux]

    Интерактивный инструмент постобработки отсканированных страниц. Он выполняет такие операции, как разделение страницы, выравнивание, добавление/удаление границ и другие.

    Установка OSX через Homebrew :brew install scantailor

  • Мастер сканирования книг [Java/кроссплатформенный]

    Утилита, помогающая сканировать книги с использованием камер в качестве сканера. Он автоматизирует такие вещи, как обрезка, вращение, исправление трапецеидальных искажений, исправление DPI и вывод его в файлы tiff, которые можно преобразовать в PDF или электронные книги.

  • Постпроцессор изображений для книжного сканера своими руками

    Постпроцессор изображений для DIY Book Scanner, описанный на instructables.com, и DIY Book Scanner . Подготавливает изображения для оптического распознавания символов или для PDF. Написано на Java на основе частичного порта библиотеки обработки изображений Leptonica.

Похожие сообщения:

Вы можете попробовать программу ImBatch . Это инструмент пакетной обработки изображений для Windows. Он может принимать многостраничный файл PDF в качестве входных данных, каждая страница может быть обработана как изображение с помощью задачи «Автообрезка», затем добавить задачу «Сохранить в PDF ...», убедившись, что опция «Отдельный файл PDF для каждого изображения» отключена. .

Это должно работать на вас. Однако я не уверен, что задача "Автообрезка" может корректно обрабатывать ваши страницы. Этот инструмент также имеет пакетную задачу «Устранение перекоса текста», если страницы были отсканированы немного повернутыми.