Сравните PDF с отсканированным изображением PDF

Я предполагаю, что это длинный выстрел, но здесь идет.

Мы отправляем PDF-файл клиенту по электронной почте, он распечатывает его, подписывает и, возможно, комментирует, сканирует обратно, а затем возвращает нам по электронной почте. Таким образом, возвращаемый PDF-файл не имеет хорошего формата, а представляет собой изображение, сохраненное в формате PDF. Мне нужно сравнить два PDF-файла и найти аннотации.

Есть ли какие-нибудь библиотеки желательно на С# (платные и бесплатные), которые могли бы в этом помочь?

Спасибо

Ответы (1)

В компании, в которой я работаю, есть SDK для обработки изображений, который может вам в этом помочь. Идея, которую я имею в виду, заключается в следующем:

  1. Загружайте исходные и измененные страницы PDF в виде изображений с одинаковым разрешением. Код для этого прост:

    RasterCodecs _codecs = new RasterCodecs();
    Растровое изображение imageBefore = _codecs.Load(pdf1);
    Растровое изображение imageAfter = _codecs.Load(pdf2);

  2. Выровняйте оба изображения так, чтобы соответствующие области имели одинаковые координаты. Эта часть нуждается в некоторой доработке, но она уже была сделана в этом сообщении на форуме . Вам нужно будет определить определенные ключевые слова для поиска в приблизительных местах, когда вы разрабатываете свою программу, но после этого процесс выравнивания становится автоматизированным с помощью OCR.

  3. После того, как вы выровняете 2 изображения, вы можете вычесть (или XOR) одно из другого, чтобы получить области, в которых они различаются. Это делается с помощью класса CombineFastCommand.

Если вы хотите попробовать наш SDK, у нас есть полнофункциональная бесплатная пробная версия, которую вы можете найти здесь . Оценочная версия поставляется с бесплатной поддержкой по электронной почте и в онлайн-чате, и вы можете обращаться в службу поддержки до и во время оценки с любыми вопросами, которые у вас есть, включая технические вопросы о наших функциях и программах с примерами кода.