Разбивка pdf на различные изображения, сжатие и рекомбинация

Я хочу сохранить каждую страницу PDF-файла как отдельное изображение, сжать их и снова объединить в PDF.

Некоторые PDF-файлы, которые я часто использую, странно велики по размеру. Я имею в виду, где-то 100 страниц, а где-то 200М. Я подозреваю, что это связано с тем, что некоторые файлы PDF сохраняются в графическом виде со слишком высоким разрешением или с неправильным сжатием. Тот факт, что файлы, имеющие одинаковое состояние с точки зрения разрешения и разборчивости, часто имеют меньший размер, заставляет меня задаться вопросом, есть ли еще место для сжатия. (У меня нет знаний в области обработки изображений, так что это только мое ощущение.)

Мой план таков. Я прошу 1 и 3, и желательно, чтобы я мог делать все это в командной строке, чтобы я мог сам написать сценарий упаковки, что будет несложно. Скриншот делает 1, а Preview может делать 3, но неясно, можно ли их сделать с помощью CLI.

  1. Сохраните каждую страницу PDF-файла как изображение.

  2. Отфильтруйте каждое изображение. Я не прошу эту часть, так как инструментов для обработки изображений предостаточно. Я сам могу изучить подходящие фильтры. Что касается разборчивости, я считаю, что размер файла уменьшается, если изображение становится черно-белым.

  3. Объедините эти изображения

Если у вас есть совершенно другие способы сжатия PDF, вам также рады. Возможно, есть кто-то, кто завершил весь процесс, и мне не нужно изобретать велосипед.

Ответы (1)

Преобразование PDF-файла, состоящего в основном из текста, в изображения почти наверняка увеличит размер файла, а не уменьшит его. PDF-файлы довольно эффективно содержат текст — преобразование в изображение сводит на нет это, поскольку вы просто сохраняете изображения.

Предварительный просмотр включает параметр «Уменьшить размер файла» для PDF-файлов. Откройте PDF с предварительным просмотром, выберите «Файл» → «Экспорт» и выберите «Кварцевый фильтр: уменьшить размер файла». Вы также можете выбрать «Черно-белое», что также может уменьшить размер файла.

Если вы действительно хотите увидеть преобразование вашего PDF в PDF изображений, вы можете использовать ImageMagick .

convert /path/to/in.pdf -resize 100% -compress Group4 /path/to/out.pdf