У меня есть задача развернуть «что-то», способное делать то, что делает Google, но для PDF-файлов. Это может быть что-то вроде «Google Desktop Search», но в идеале приложение должно работать на сервере.
Вот некоторые сведения о моей компании:
Пока я оцениваю эти 2 инструмента:
Спасибо!
Пять лет назад я настроил Alfresco именно для этой задачи.
Alfresco — это сервер управления документами, что означает, что вы можете загружать на него файлы (в том числе PDF-файлы), а ваши коллеги могут загружать их или читать онлайн. У каждого документа есть метаданные (автор, дата, ключевые слова и т. д., вы также можете добавить свои собственные поля метаданных).
Вы можете интегрировать Tesseract OCR в Alfresco. Вот техническая процедура: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr
Как только это будет сделано, у вас будет «действие» OCR. Следующим шагом будет выполнение этого действия для любого загружаемого PDF-файла. Это легко сделать, создав правило Alfresco . Теперь, после того как кто-то загрузит PDF-файл, содержащий слово «привет», когда люди будут искать «привет» с помощью поля поиска Alfresco, они увидят этот PDF-файл в результатах.
И Alfresco, и Tesseract бесплатны и имеют открытый исходный код.
До сих пор моя оценка Noggle была положительной: https://software4scholars.wordpress.com/2018/08/03/noggle-search-the-content-of-all-your-files/
Эссексбойрейсер
айнпоклум