Я ищу инструмент, который может искать текст в отсканированных PDF-документах и изображениях. Я попробовал Evernote, и он мне очень понравился, но я не хочу хранить личные документы в чужом облаке.
Я разработчик, поэтому я мог бы сделать некоторые мелкие вещи сам, но синтаксический анализ PDF-файлов для текста — это не моя лига.
Важные особенности
Менее важные функции
Бюджет
Либо около 50€/год, либо около 200€ один раз.
Возможно, вы сможете добиться некоторого прогресса с помощью python pdfminer / pdfminer3k, но большая проблема заключается в том, что отсканированные файлы PDF содержат только текст в результате любого OCR ( оптического распознавания символов ), выполненного сканером. Это сильно различается по качеству в зависимости от шрифта и качества исходного документа, а также от сканера.
Если текст присутствует и хорошего качества в pdf, вы можете использовать pdfminer, чтобы извлечь его и проиндексировать ваши файлы из него, но в противном случае вам придется сначала выполнить распознавание изображений страниц, используя что-то вроде Aprise или Abby (оба платные). for) или Tesseract (бесплатно и с рядом внешних интерфейсов, включая pyTesseract ).
Если ваши pdf-файлы содержат документы, написанные от руки или плохо отсканированные, у вас, вероятно, возникнут трудности.
Ив Дауст