Несколько PDF-файлов с возможностью поиска на веб-сайте

У меня есть большое количество PDF-файлов, которые необходимо опубликовать в Интернете.

В настоящее время я использую базу данных для хранения ключевых слов для каждого PDF-файла (а также других метаданных и имени файла, чтобы предоставить ссылку).

Я использую форму поиска HTML и некоторый код PHP, который затем использует ключевые слова в базе данных для сопоставления записей и предоставления страницы результатов с заголовками и ссылками на PDF-файлы.

Однако поддержание расширенных списков ключевых слов для каждого PDF-файла занимает ужасно много времени.

Вместо этого я хотел бы использовать программное обеспечение, которое автоматизирует этот процесс, имея возможность искать содержимое самих файлов PDF. Это должно быть что-то, что я могу развернуть на веб-сайте, а не настольное приложение.

Есть такой софт?

Я не знаю о таком программном обеспечении. Если вы ничего не можете найти, альтернативным подходом будет размещение «текстового содержимого» PDF-файла в текстовом столбце и использование для него полнотекстового поиска . Большинство баз данных предоставляют такие функции.

Ответы (1)

Существует программный продукт Apache под названием Lucene , который является популярной системой индексации и поиска. В списке функций должно быть указано, обеспечивает ли он специфику необходимых вам возможностей поиска.

Существует расширение, которое вы можете использовать ( lucene-pdf ), специально помогающее индексировать pdf. Он основан на Java, поэтому вы можете установить его практически на любой сервер, и есть версия Python, если она лучше подходит для вашей среды.

Надеюсь, это поможет.