У меня есть pdf-файл, который представляет собой pdf-формат страницы газеты, на которой много статей (изображение + текст), таких же, как статьи, которые мы находим в газете, которую поставщик газет каждый день бросает к нам.
Я хотел спросить, возможно ли как-то нарезать эти статьи из этого pdf-файла, программно, используя библиотеку или инструмент?
Если не в формате pdf, то можно ли вырезать эти статьи из этого файла изображения?
Да, это.
Хорошо, как теперь? Мужик, это грубо. На прежней работе я помогал поддерживать и расширять наш парсер PDF. PDF — это компьютерный язык для указания макета страницы и содержимого. Таким образом, все данные, которые вам нужны, находятся там, но автоматизировать их было бы большой задачей.
Опять же, если вам нужно сделать это только с небольшим количеством PDF-файлов, вы можете надеяться , что текст на самом деле является текстом, а не данными изображения, и посмотреть, работает ли копирование/вставка.
(Теперь, с учетом сказанного, я надеюсь, что у вас есть разрешение правообладателя на это, если вы намерены повторно распространять статьи.)
Поль Сезанн
Поль Сезанн