Инструмент поиска отсканированных PDF-документов и изображений

Я ищу инструмент, который может искать текст в отсканированных PDF-документах и ​​изображениях. Я попробовал Evernote, и он мне очень понравился, но я не хочу хранить личные документы в чужом облаке.

Я разработчик, поэтому я мог бы сделать некоторые мелкие вещи сам, но синтаксический анализ PDF-файлов для текста — это не моя лига.

Важные особенности

  1. Нет облачного сервиса
  2. Возможность работы с отсканированными PDF-документами и изображениями
  3. Должен быть в состоянии надежно работать с документами до 100 000.
  4. Должен работать на Linux или Windows 10 с 8 ГБ ОЗУ.
  5. Предпочтительно иметь безопасный веб-интерфейс, который позволяет мне добавлять документы и искать документы
  6. Должен поддерживать большие документы> 50 МБ

Менее важные функции

  1. Поддерживает шифрование документов (например, для поиска требуется аутентификация)
  2. Может работать с другими типами документов (raw, docx, pptx и т. д.)
  3. Возможность добавления нескольких пользователей

Бюджет

Либо около 50€/год, либо около 200€ один раз.

Думаю, в этот бюджет не входит любое коммерческое программное обеспечение. Реадирис, может быть?

Ответы (1)

Возможно, вы сможете добиться некоторого прогресса с помощью python pdfminer / pdfminer3k, но большая проблема заключается в том, что отсканированные файлы PDF содержат только текст в результате любого OCR ( оптического распознавания символов ), выполненного сканером. Это сильно различается по качеству в зависимости от шрифта и качества исходного документа, а также от сканера.

Если текст присутствует и хорошего качества в pdf, вы можете использовать pdfminer, чтобы извлечь его и проиндексировать ваши файлы из него, но в противном случае вам придется сначала выполнить распознавание изображений страниц, используя что-то вроде Aprise или Abby (оба платные). for) или Tesseract (бесплатно и с рядом внешних интерфейсов, включая pyTesseract ).

Если ваши pdf-файлы содержат документы, написанные от руки или плохо отсканированные, у вас, вероятно, возникнут трудности.