Приложение для поиска содержимого PDF / бизнес-аналитики

Question

Приложение для поиска содержимого PDF / бизнес-аналитики

пдф
поиск
Софт

Лукас Поттерски

У меня есть задача развернуть «что-то», способное делать то, что делает Google, но для PDF-файлов. Это может быть что-то вроде «Google Desktop Search», но в идеале приложение должно работать на сервере.

Вот некоторые сведения о моей компании:

мы государственное учреждение. У нас есть сотни PDF-файлов с вырезками из новостей с сайтов, в которых упоминается наше агентство или интересующая нас тема.
наш генеральный директор часто выступает перед различными сообществами, поэтому его нужно информировать на лету по конкретной теме, прежде чем он пойдет на встречу
мы думали, что индексация наших данных PDF будет хорошим началом, но в долгосрочной перспективе мы стремимся к более структурированному анализу данных.

Пока я оцениваю эти 2 инструмента:

Спасибо!

Эссексбойрейсер

Как именно создаются ваши PDF-файлы? Это простые сканы с бумажных копий? Для индексирования PDF-файлов требуется, чтобы текст в PDF-файле был представлен в виде строк ASCII или Unicode (в случае PDFMiner). Если некоторые из этих PDF-файлов представляют собой отсканированные изображения, например, из газетной вырезки, то, скорее всего, текст будет представлен как изображение, которое не индексируется. Тогда ваша проблема заключается не в индексировании PDF-файлов, а в преобразовании существующих PDF-файлов с помощью OCR, а затем в получении некоторого оборудования, которое может одновременно сканировать и OCR. Fujitsu выпускает несколько действительно хороших сканеров для настольных ПК, например fi7180. Они

айнпоклум

До сих пор не ясно, что вы просите. «Делать то, что делает Google» — это расплывчато и очень широко. Вы хотите искать текст в PDF-файлах? Вы хотите выполнить распознавание текста для всех ваших PDF-файлов и сохранить результаты во внешнем поисковом индексе? Вы хотите встроить текст с распознанным распознаванием в PDF? и т.д. Также - в государственных учреждениях нет генеральных директоров :-)

Ответы (3)

Приложение для поиска содержимого PDF / бизнес-аналитики

Как именно создаются ваши PDF-файлы? Это простые сканы с бумажных копий? Для индексирования PDF-файлов требуется, чтобы текст в PDF-файле был представлен в виде строк ASCII или Unicode (в случае PDFMiner). Если некоторые из этих PDF-файлов представляют собой отсканированные изображения, например, из газетной вырезки, то, скорее всего, текст будет представлен как изображение, которое не индексируется. Тогда ваша проблема заключается не в индексировании PDF-файлов, а в преобразовании существующих PDF-файлов с помощью OCR, а затем в получении некоторого оборудования, которое может одновременно сканировать и OCR. Fujitsu выпускает несколько действительно хороших сканеров для настольных ПК, например fi7180. Они
До сих пор не ясно, что вы просите. «Делать то, что делает Google» — это расплывчато и очень широко. Вы хотите искать текст в PDF-файлах? Вы хотите выполнить распознавание текста для всех ваших PDF-файлов и сохранить результаты во внешнем поисковом индексе? Вы хотите встроить текст с распознанным распознаванием в PDF? и т.д. Также - в государственных учреждениях нет генеральных директоров :-)

Николя Рауль · Answer 1

Пять лет назад я настроил Alfresco именно для этой задачи.

Alfresco — это сервер управления документами, что означает, что вы можете загружать на него файлы (в том числе PDF-файлы), а ваши коллеги могут загружать их или читать онлайн. У каждого документа есть метаданные (автор, дата, ключевые слова и т. д., вы также можете добавить свои собственные поля метаданных).

Вы можете интегрировать Tesseract OCR в Alfresco. Вот техническая процедура: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr

Как только это будет сделано, у вас будет «действие» OCR. Следующим шагом будет выполнение этого действия для любого загружаемого PDF-файла. Это легко сделать, создав правило Alfresco . Теперь, после того как кто-то загрузит PDF-файл, содержащий слово «привет», когда люди будут искать «привет» с помощью поля поиска Alfresco, они увидят этот PDF-файл в результатах.

И Alfresco, и Tesseract бесплатны и имеют открытый исходный код.

это выглядит действительно круто! поздравляю и спасибо за ответ! "="

Стив Барнс · Answer 2

Вы можете взглянуть на pythons pdf-miner , чтобы извлечь информацию для индексации в текстовом формате. NLTK также может быть полезен для выбора соответствующих частей речи, которые были бы значимыми.

Кристоф · Answer 3

До сих пор моя оценка Noggle была положительной: https://software4scholars.wordpress.com/2018/08/03/noggle-search-the-content-of-all-your-files/

Приложение для поиска содержимого PDF / бизнес-аналитики

Лукас Поттерски

Эссексбойрейсер

айнпоклум

Ответы (3)

Николя Рауль

Лукас Поттерски

Стив Барнс

Кристоф

Поиск Finder только ищет имена файлов (Macbook Air, El Capitan)

Программное обеспечение для поиска по файлам (в основном PDF)

Инструмент поиска отсканированных PDF-документов и изображений

Несколько PDF-файлов с возможностью поиска на веб-сайте

OS X: есть ли конвертер формата PDF в Kindle для чтения технических материалов на Amazon Kindle?

Поиск текстовых аннотаций в Mac Preview

Предварительный просмотр: выделение и поиск PDF перестают работать до перезагрузки

Поиск знаков препинания в предварительном просмотре

Поиск в коллекции файлов Word и PDF

На iPad iBooks, как сделать так, чтобы выделение отображалось для файлов PDF?