Нарезка статей из фотографии или страницы газеты в формате pdf [закрыто]

Question

Нарезка статей из фотографии или страницы газеты в формате pdf [закрыто]

Фото
Обработка изображения
обработка изображений

пропускать

У меня есть pdf-файл, который представляет собой pdf-формат страницы газеты, на которой много статей (изображение + текст), таких же, как статьи, которые мы находим в газете, которую поставщик газет каждый день бросает к нам.

Я хотел спросить, возможно ли как-то нарезать эти статьи из этого pdf-файла, программно, используя библиотеку или инструмент?

Если не в формате pdf, то можно ли вырезать эти статьи из этого файла изображения?

Поль Сезанн

Добро пожаловать на photo.stackexchange. Я ответил, но думаю, что это будет закрыто как не по теме.

Поль Сезанн

Этот вопрос кажется не по теме, потому что речь идет об управлении файлом PDF, а не о фотографии.

Ответы (1)

Нарезка статей из фотографии или страницы газеты в формате pdf [закрыто]

Добро пожаловать на photo.stackexchange. Я ответил, но думаю, что это будет закрыто как не по теме.
Этот вопрос кажется не по теме, потому что речь идет об управлении файлом PDF, а не о фотографии.

Поль Сезанн · Answer 1

Да, это.

Хорошо, как теперь? Мужик, это грубо. На прежней работе я помогал поддерживать и расширять наш парсер PDF. PDF — это компьютерный язык для указания макета страницы и содержимого. Таким образом, все данные, которые вам нужны, находятся там, но автоматизировать их было бы большой задачей.

Опять же, если вам нужно сделать это только с небольшим количеством PDF-файлов, вы можете надеяться , что текст на самом деле является текстом, а не данными изображения, и посмотреть, работает ли копирование/вставка.

(Теперь, с учетом сказанного, я надеюсь, что у вас есть разрешение правообладателя на это, если вы намерены повторно распространять статьи.)

Программное обеспечение OCR — оптическое распознавание символов выполняется на изображениях, содержащих текст. Результат - текстовый файл.
@Paul Спасибо за ответ, я упомянул фото или pdf, так как предоставленный мне источник может быть в любом формате. Текст в pdf/фото на языке хинди. Не могли бы вы предложить, как я могу нарезать эти статьи из pdf/фото? Я хочу спросить о технологиях, которые мне нужно будет понять, или о библиотеках, если мне придется их использовать. Любые ресурсы будут полезны. Еще раз спасибо за ответ.
К сожалению, вся эта работа была на бывшего работодателя. Хорошая новость заключается в том, что спецификация PDF общедоступна, поэтому вы можете написать парсер. Плохая новость в том, что спецификация огромна. PDF написан на Postscript, поэтому любой парсер Postcript должен работать, но я думаю, что если вы не найдете пакет с открытым исходным кодом, вам не придется работать.
См. podofo.sourceforge.net , я ничего об этом не знаю, это был первый поиск в Google.
Я использую github.com/yob/pdf-reader для автоматического тестирования PDF-файлов, которые я создаю. Это не инструмент командной строки, а библиотека (ruby).

Нарезка статей из фотографии или страницы газеты в формате pdf [закрыто]

пропускать

Поль Сезанн

Поль Сезанн

Ответы (1)

Поль Сезанн

Эса Пауласто

пропускать

Поль Сезанн

Поль Сезанн

Патрик Херли

Улучшает ли уменьшение увеличенного изображения его качество (с точки зрения размытия)?

Как я могу отличить исходное изображение от изображения Photoshop [дубликат]

Как рассчитать размеры изображения по параметрам камеры? [дубликат]

некоторые критерии, когда фильтр выглядит хорошо

Улучшение изображений для человеческого зрения

Как я могу интерполировать каждый цвет отдельно (т.е. экспортировать изображение только с красным цветом) с помощью dcraw?

Лучше ли фильтры деконволюции, чем нерезкая маска, для исправления расфокусированных фотографий?

Как исправить сильное синее смещение на этих изображениях?

Цветовая коррекция RGB изображений с ПЗС-камер [закрыто]

Если мне нужен мягкий фокус, должен ли я взять объектив Canon 135 мм с мягким фокусом или сделать это в Photoshop?