Инструмент поиска отсканированных PDF-документов и изображений

Question

Инструмент поиска отсканированных PDF-документов и изображений

пдф
поиск
Софт
текстовый поиск

Джоба

Я ищу инструмент, который может искать текст в отсканированных PDF-документах и изображениях. Я попробовал Evernote, и он мне очень понравился, но я не хочу хранить личные документы в чужом облаке.

Я разработчик, поэтому я мог бы сделать некоторые мелкие вещи сам, но синтаксический анализ PDF-файлов для текста — это не моя лига.

Важные особенности

Нет облачного сервиса
Возможность работы с отсканированными PDF-документами и изображениями
Должен быть в состоянии надежно работать с документами до 100 000.
Должен работать на Linux или Windows 10 с 8 ГБ ОЗУ.
Предпочтительно иметь безопасный веб-интерфейс, который позволяет мне добавлять документы и искать документы
Должен поддерживать большие документы> 50 МБ

Менее важные функции

Поддерживает шифрование документов (например, для поиска требуется аутентификация)
Может работать с другими типами документов (raw, docx, pptx и т. д.)
Возможность добавления нескольких пользователей

Бюджет

Либо около 50€/год, либо около 200€ один раз.

Ив Дауст

Думаю, в этот бюджет не входит любое коммерческое программное обеспечение. Реадирис, может быть?

Ответы (1)

Инструмент поиска отсканированных PDF-документов и изображений

Думаю, в этот бюджет не входит любое коммерческое программное обеспечение. Реадирис, может быть?

Стив Барнс · Answer 1

Возможно, вы сможете добиться некоторого прогресса с помощью python pdfminer / pdfminer3k, но большая проблема заключается в том, что отсканированные файлы PDF содержат только текст в результате любого OCR ( оптического распознавания символов ), выполненного сканером. Это сильно различается по качеству в зависимости от шрифта и качества исходного документа, а также от сканера.

Если текст присутствует и хорошего качества в pdf, вы можете использовать pdfminer, чтобы извлечь его и проиндексировать ваши файлы из него, но в противном случае вам придется сначала выполнить распознавание изображений страниц, используя что-то вроде Aprise или Abby (оба платные). for) или Tesseract (бесплатно и с рядом внешних интерфейсов, включая pyTesseract ).

Если ваши pdf-файлы содержат документы, написанные от руки или плохо отсканированные, у вас, вероятно, возникнут трудности.

Инструмент поиска отсканированных PDF-документов и изображений

Джоба

Ив Дауст

Ответы (1)

Стив Барнс

Программное обеспечение для поиска по файлам (в основном PDF)

Несколько PDF-файлов с возможностью поиска на веб-сайте

Поиск Finder только ищет имена файлов (Macbook Air, El Capitan)

Программное обеспечение для поиска и замены, допускающее замену слов длиной более 234 206 символов.

Приложение для поиска содержимого PDF / бизнес-аналитики

OS X: есть ли конвертер формата PDF в Kindle для чтения технических материалов на Amazon Kindle?

Программное обеспечение для выполнения обратного поиска - сопоставление основного текста с известной фразой

Поиск текстовых аннотаций в Mac Preview

Предварительный просмотр: выделение и поиск PDF перестают работать до перезагрузки

Какие инструменты могут превратить отсканированные бумажные документы в текстовый PDF-файл с возможностью поиска на Mac?