Найдите 15 000 книг в формате PDF или EPUB

Calibre — отличное программное обеспечение для загрузки и чтения файлов EPUB. Мы можем создать библиотеку, используя файлы EPUB. Однако недостатком является отсутствие полнотекстового поиска.

Обитель может создать индекс и обеспечить поиск. Однако ищем несколько функций, которые есть у Caliber.

Кто-нибудь знает хорошее программное обеспечение, которое загружает, читает и выполняет поиск по всей книге в формате PDF, то есть полнотекстовый поиск в течение нескольких секунд (возможно, от 1 до 3 секунд) и выдает результаты?

PDF-файлы не сканируются.

ОС: Windows. Он должен быть с открытым исходным кодом.

Поиск в одной книге, которую вы открыли, или во всех книгах в вашей библиотеке? На какой ОС он должен работать, какие еще функции вам нужны?
Кроме того, каков источник PFD - если они отсканированы, то любой текстовый контент для индексации является результатом OCR, поэтому низкая надежность, большинство систем печати в pdf в порядке, почти все системы прямого создания в порядке.
не отсканировано. но фактический файл PDF... ОС Windows
Функции. 1. Возврат результатов в течение секунды 2. Варианты следующего и предыдущего совпадений 3. Выделение искомого ключевого слова 4. Доступное количество совпадений перед выполнением поиска, т.е. захват всех ключевых слов после импорта PDF. 5. Перестроение индекса всякий раз, когда это требуется - добавление или удаление нового pdf. 6. Опция отчета 7. Независимость от платформы 8. Открытый исходный код 9. Хороший пользовательский интерфейс
Вы говорите сначала EPUB, потом PDF. Вы будете работать с более чем одним форматом или вам нужно искать только в pdf? Кроме того, будете ли вы делать что-то большее, чем просто найти книгу (например, провести исследование с этими книгами)? Эти вещи тоже важны.
Epub или PDF... любой подойдет

Ответы (2)

Вы можете дать DocFetcher шанс.
Я использую его для поиска в более чем 1000 файлов PDF. Первые результаты появляются мгновенно, а все остальные находятся в течение нескольких секунд. Он также может обрабатывать epub и множество других форматов файлов.

Несколько секунд - это много... Ожидание результатов должно быть меньше или через секунду, как в Google...
Скорость сильно зависит от производительности компьютера, поэтому, возможно, на вашей машине она будет быстрее.
Даже при использовании высокоскоростного компьютера поиск с опережением текста выполняется медленно. Кроме того, поиск новой версии отличается от предыдущей версии. Ищите другой инструмент или программное обеспечение. пожалуйста, предложите что-то новое, чтобы попробовать
периодически индексируйте его и выполняйте поиск с помощью Google Desktop

Никогда не пробовал, но Apache Lucene ( http://lucene.apache.org/ ) часто упоминается как движок для полнотекстового поиска в очень больших объемах текста.