Приложение для поиска содержимого PDF / бизнес-аналитики

У меня есть задача развернуть «что-то», способное делать то, что делает Google, но для PDF-файлов. Это может быть что-то вроде «Google Desktop Search», но в идеале приложение должно работать на сервере.

Вот некоторые сведения о моей компании:

  • мы государственное учреждение. У нас есть сотни PDF-файлов с вырезками из новостей с сайтов, в которых упоминается наше агентство или интересующая нас тема.
  • наш генеральный директор часто выступает перед различными сообществами, поэтому его нужно информировать на лету по конкретной теме, прежде чем он пойдет на встречу
  • мы думали, что индексация наших данных PDF будет хорошим началом, но в долгосрочной перспективе мы стремимся к более структурированному анализу данных.

Пока я оцениваю эти 2 инструмента:

Спасибо!

Как именно создаются ваши PDF-файлы? Это простые сканы с бумажных копий? Для индексирования PDF-файлов требуется, чтобы текст в PDF-файле был представлен в виде строк ASCII или Unicode (в случае PDFMiner). Если некоторые из этих PDF-файлов представляют собой отсканированные изображения, например, из газетной вырезки, то, скорее всего, текст будет представлен как изображение, которое не индексируется. Тогда ваша проблема заключается не в индексировании PDF-файлов, а в преобразовании существующих PDF-файлов с помощью OCR, а затем в получении некоторого оборудования, которое может одновременно сканировать и OCR. Fujitsu выпускает несколько действительно хороших сканеров для настольных ПК, например fi7180. Они
До сих пор не ясно, что вы просите. «Делать то, что делает Google» — это расплывчато и очень широко. Вы хотите искать текст в PDF-файлах? Вы хотите выполнить распознавание текста для всех ваших PDF-файлов и сохранить результаты во внешнем поисковом индексе? Вы хотите встроить текст с распознанным распознаванием в PDF? и т.д. Также - в государственных учреждениях нет генеральных директоров :-)

Ответы (3)

Пять лет назад я настроил Alfresco именно для этой задачи.

Alfresco — это сервер управления документами, что означает, что вы можете загружать на него файлы (в том числе PDF-файлы), а ваши коллеги могут загружать их или читать онлайн. У каждого документа есть метаданные (автор, дата, ключевые слова и т. д., вы также можете добавить свои собственные поля метаданных).

Вы можете интегрировать Tesseract OCR в Alfresco. Вот техническая процедура: http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr

Как только это будет сделано, у вас будет «действие» OCR. Следующим шагом будет выполнение этого действия для любого загружаемого PDF-файла. Это легко сделать, создав правило Alfresco . Теперь, после того как кто-то загрузит PDF-файл, содержащий слово «привет», когда люди будут искать «привет» с помощью поля поиска Alfresco, они увидят этот PDF-файл в результатах.

Alfresco ищет PDF-файлы

И Alfresco, и Tesseract бесплатны и имеют открытый исходный код.

это выглядит действительно круто! поздравляю и спасибо за ответ! "="

Вы можете взглянуть на pythons pdf-miner , чтобы извлечь информацию для индексации в текстовом формате. NLTK также может быть полезен для выбора соответствующих частей речи, которые были бы значимыми.

До сих пор моя оценка Noggle была положительной: https://software4scholars.wordpress.com/2018/08/03/noggle-search-the-content-of-all-your-files/