Нарезка статей из фотографии или страницы газеты в формате pdf [закрыто]

У меня есть pdf-файл, который представляет собой pdf-формат страницы газеты, на которой много статей (изображение + текст), таких же, как статьи, которые мы находим в газете, которую поставщик газет каждый день бросает к нам.

Я хотел спросить, возможно ли как-то нарезать эти статьи из этого pdf-файла, программно, используя библиотеку или инструмент?

Если не в формате pdf, то можно ли вырезать эти статьи из этого файла изображения?

Добро пожаловать на photo.stackexchange. Я ответил, но думаю, что это будет закрыто как не по теме.
Этот вопрос кажется не по теме, потому что речь идет об управлении файлом PDF, а не о фотографии.

Ответы (1)

Да, это.

Хорошо, как теперь? Мужик, это грубо. На прежней работе я помогал поддерживать и расширять наш парсер PDF. PDF — это компьютерный язык для указания макета страницы и содержимого. Таким образом, все данные, которые вам нужны, находятся там, но автоматизировать их было бы большой задачей.

Опять же, если вам нужно сделать это только с небольшим количеством PDF-файлов, вы можете надеяться , что текст на самом деле является текстом, а не данными изображения, и посмотреть, работает ли копирование/вставка.

(Теперь, с учетом сказанного, я надеюсь, что у вас есть разрешение правообладателя на это, если вы намерены повторно распространять статьи.)

Программное обеспечение OCR — оптическое распознавание символов выполняется на изображениях, содержащих текст. Результат - текстовый файл.
@Paul Спасибо за ответ, я упомянул фото или pdf, так как предоставленный мне источник может быть в любом формате. Текст в pdf/фото на языке хинди. Не могли бы вы предложить, как я могу нарезать эти статьи из pdf/фото? Я хочу спросить о технологиях, которые мне нужно будет понять, или о библиотеках, если мне придется их использовать. Любые ресурсы будут полезны. Еще раз спасибо за ответ.
К сожалению, вся эта работа была на бывшего работодателя. Хорошая новость заключается в том, что спецификация PDF общедоступна, поэтому вы можете написать парсер. Плохая новость в том, что спецификация огромна. PDF написан на Postscript, поэтому любой парсер Postcript должен работать, но я думаю, что если вы не найдете пакет с открытым исходным кодом, вам не придется работать.
См. podofo.sourceforge.net , я ничего об этом не знаю, это был первый поиск в Google.
Я использую github.com/yob/pdf-reader для автоматического тестирования PDF-файлов, которые я создаю. Это не инструмент командной строки, а библиотека (ruby).