Программное обеспечение для редактирования PDF для удаления темных полей сканирования

Question

Программное обеспечение для редактирования PDF для удаления темных полей сканирования

пдф
Софт
автоматизация
редактирование изображений

Калле Рихтер

Предположим, у вас есть файл PDF, полученный в результате сканирования нескольких страниц книги (в формате, меньшем, чем формат сканера по умолчанию (например, 10 см x 20 см и DIN A4)) и что человек, который сканировал, разместил книгу в произвольном месте на сканер. Есть ли инструмент, который либо

позволяет автоматически удалять эти поля (просчеты поля маловероятны, но должны быть приняты)
позволяет переходить со страницы на страницу и удалять темные поля на основе предложений программы (я не хочу использовать какие-либо инструменты редактирования помимо этого, может быть, исправить предложение, но не определять поля с самого начала с помощью перетаскивание рамки, перемещение линий разделения или что-то подобное)

Преобразование PDF -> изображения -> PDF не должно быть проблемой, и это можно сделать с помощью двух или трех команд в командной строке, поэтому, если для изображений существует пакетное решение, я бы посчитал это решением.

пользователь416

Похоже, что PDF - это все изображения. Один «средний уровень работы», о котором я могу думать, это: экспортировать изображения, а затем пакетно обрабатывать их с помощью программного обеспечения OCR. Но тогда у вас будет текст вместо изображений, и это может зайти слишком далеко для вас.

Нику

Фотошоп? Он способен обрабатывать PDF-файлы, и вы можете легко удалить эти нежелательные темные области, я полагаю?

Калле Рихтер

@Neeku Да, но в Photoshop нет автоматизации, которую я описал («Я не хочу использовать какие-либо инструменты редактирования, кроме [автоматически сгенерированного предложения программного обеспечения]»). Я мог использовать любое программное обеспечение для редактирования изображений, даже гораздо менее сложные и/или бесплатные альтернативы Photoshop.

Нику

Верно. Не уверен, что понимаю, что вы имеете в виду под автоматизацией, но вы можете создавать макросы (Действия) в Photoshop, чтобы выполнять повторяющиеся действия за вас. Но опять же, да! Я понимаю, что PS больше для изображений, чем для PDF. Кроме того, мне удалось вспомнить название приложения, которое я использовал много лет назад в Windows, Nitro PDF . Не уверен, что мне следует указать это как ответ, так как я не могу вспомнить, была ли у него такая функция, но обычно я был очень доволен редактированием PDF-файлов с его помощью.

Калле Рихтер

Я предполагаю, что GIMP и блендер также имеют много возможностей для сценариев (отличный Python API и/или привязки), но это довольно нетривиально, и я не могу представить, чтобы это было проще в Photoshop. Кроме того, я предполагаю, что запись макросов на основе действий графического интерфейса (в любом приложении) не избавит вас от реализации логики распознавания полей.

Ответы (2)

Программное обеспечение для редактирования PDF для удаления темных полей сканирования

Похоже, что PDF - это все изображения. Один «средний уровень работы», о котором я могу думать, это: экспортировать изображения, а затем пакетно обрабатывать их с помощью программного обеспечения OCR. Но тогда у вас будет текст вместо изображений, и это может зайти слишком далеко для вас.
Фотошоп? Он способен обрабатывать PDF-файлы, и вы можете легко удалить эти нежелательные темные области, я полагаю?
@Neeku Да, но в Photoshop нет автоматизации, которую я описал («Я не хочу использовать какие-либо инструменты редактирования, кроме [автоматически сгенерированного предложения программного обеспечения]»). Я мог использовать любое программное обеспечение для редактирования изображений, даже гораздо менее сложные и/или бесплатные альтернативы Photoshop.
Верно. Не уверен, что понимаю, что вы имеете в виду под автоматизацией, но вы можете создавать макросы (Действия) в Photoshop, чтобы выполнять повторяющиеся действия за вас. Но опять же, да! Я понимаю, что PS больше для изображений, чем для PDF. Кроме того, мне удалось вспомнить название приложения, которое я использовал много лет назад в Windows, Nitro PDF . Не уверен, что мне следует указать это как ответ, так как я не могу вспомнить, была ли у него такая функция, но обычно я был очень доволен редактированием PDF-файлов с его помощью.
Я предполагаю, что GIMP и блендер также имеют много возможностей для сценариев (отличный Python API и/или привязки), но это довольно нетривиально, и я не могу представить, чтобы это было проще в Photoshop. Кроме того, я предполагаю, что запись макросов на основе действий графического интерфейса (в любом приложении) не избавит вас от реализации логики распознавания полей.

Кенорб · Answer 1

Попробуйте следующее программное обеспечение:

Unpaper [инструмент cmd-line, кросс-платформенный]

Инструмент постобработки отсканированных листов бумаги, особенно страниц книг, отсканированных с ранее созданных фотокопий. Основная цель — сделать отсканированные страницы книги более читабельными на экране после конвертации в PDF. Кроме того, небумага может быть полезна для повышения качества отсканированных страниц перед оптическим распознаванием символов (OCR). unpaper пытается очистить отсканированные изображения, удаляя темные края, которые появились при сканировании или копировании в областях за пределами фактического содержимого страницы (например, темные области между левой и правой сторонами двустороннего сканирования книжной страницы). ).

Установка OSX через Homebrew :brew install unpaper
Scan Tailor ( GitHub ) [Windows/OSX/Linux]

Интерактивный инструмент постобработки отсканированных страниц. Он выполняет такие операции, как разделение страницы, выравнивание, добавление/удаление границ и другие.

Установка OSX через Homebrew :brew install scantailor
Мастер сканирования книг [Java/кроссплатформенный]

Утилита, помогающая сканировать книги с использованием камер в качестве сканера. Он автоматизирует такие вещи, как обрезка, вращение, исправление трапецеидальных искажений, исправление DPI и вывод его в файлы tiff, которые можно преобразовать в PDF или электронные книги.
Постпроцессор изображений для книжного сканера своими руками

Постпроцессор изображений для DIY Book Scanner, описанный на instructables.com, и DIY Book Scanner . Подготавливает изображения для оптического распознавания символов или для PDF. Написано на Java на основе частичного порта библиотеки обработки изображений Leptonica.

Похожие сообщения:

Макс Смирнофф · Answer 2

Вы можете попробовать программу ImBatch . Это инструмент пакетной обработки изображений для Windows. Он может принимать многостраничный файл PDF в качестве входных данных, каждая страница может быть обработана как изображение с помощью задачи «Автообрезка», затем добавить задачу «Сохранить в PDF ...», убедившись, что опция «Отдельный файл PDF для каждого изображения» отключена. .

Это должно работать на вас. Однако я не уверен, что задача "Автообрезка" может корректно обрабатывать ваши страницы. Этот инструмент также имеет пакетную задачу «Устранение перекоса текста», если страницы были отсканированы немного повернутыми.

Программное обеспечение для редактирования PDF для удаления темных полей сканирования

Калле Рихтер

пользователь416

Нику

Калле Рихтер

Нику

Калле Рихтер

Ответы (2)

Кенорб

Макс Смирнофф

Инструмент для удаления пустых страниц для PDF?

Разбивка pdf на различные изображения, сжатие и рекомбинация

Автоматизация электронной почты

Редактирование изображений в предварительном просмотре с использованием непрозрачных форм удаляет исходные данные из результирующего файла изображения?

Автоматическое создание и печать PDF-файлов из Markdown?

Пакетный конвертер HTML в PDF (или библиотека), который поддерживает CSS @font-face?

Извлечение отдельных вопросов из pdf и преобразование в изображения

Автоматизируйте удаление последней страницы из множества PDF-файлов

Мне нужно программное обеспечение для автоматизации рутинных задач в Windows 8