Программное обеспечение для текстового поиска в БОЛЬШОМ наборе файлов (электронных книг)

Ищем программу для Windows (похожую на «Все»), которая может:

  • Рекурсивно сканировать очень большой (2-3 ТБ, 10 000 или даже 100 000 файлов в 1000 папок) каталог
  • Для каждого "текстового" файла полностью проиндексируйте ВЕСЬ текст в нем.
  • Предлагает возможность найти, в каких файлах находится заданная строка поиска.
  • К «текстовым» файлам относятся как минимум .txt, .pdf, .epub, .mobi. В идеале другие известные форматы электронных книг (.fb2, .doc, .docx)
  • Желательна возможность расширенного поиска (поиск по всем/любому набору поисковых терминов, отрицание поискового термина. Regex, в идеале. PCRE действительно в идеале).

Дополнительные желаемые функции:

  • Поддержка неанглоязычного текста как для индексации, так и для поиска в других форматах; конкретно русский текст (КОИ-8, Windows-1251)
  • Поддержка Unicode (индексация и поиск).
  • Может просматривать архивы (по крайней мере, .zip и .rar)
  • Хороший графический интерфейс (например, приложение «Все») для отображения результатов поиска. Быстрая фильтруемая сетка, меню действий для каждого найденного файла, включая копирование местоположения, открытие содержащей папки, копирование/вырезание файла, как если бы это было в меню проводника Windows.
  • Автоматически обновляет индекс при добавлении/удалении/изменении файлов в файловой системе, как это делает Everything.
  • В идеале бесплатно, но не обязательно, если цена разумна.
  • Требуется Windows XP. Дополнительные бонусные баллы Windows8.
Хороший научно-фантастический сборник!
В следующий раз, пожалуйста, отметьте конкретную операционную систему в своем вопросе. Также вы сказали, что требуется WindowsXP, но указали его в своих дополнительных функциях. Просьба уточнить. Я упустил этот момент и написал ответ для Windows 7 (который, я думаю, будет работать с Win8), который я все равно опубликую.
@ Yos233 Yos233 - я бы предпочел иметь хорошее программное обеспечение только для 8, чем ничего (при необходимости я могу переместить коллекцию с XP на 8). Но в настоящее время это в системе XP.
Имейте в виду, что регулярные выражения/PCRE НЕ совместимы с подходом индексации. Полнотекстовые индексы нельзя использовать при поиске по регулярным выражениям, в них недостаточно информации для обслуживания регулярных выражений. Для подхода на основе регулярных выражений вам необходимо выполнить классический поиск.

Ответы (6)

Насколько мне известно, проводник Windows 7 имеет все необходимые базовые функции, а также некоторые дополнительные функции.


Вы можете индексировать каталог файлов в Windows (7+) двумя способами. Непосредственно проиндексируйте каталог или сделайте его библиотекой.

Прямой указатель: см. здесь: wikiHow: как добавить папку в указатель файлов Windows 7.

Создайте библиотеку: в проводнике перейдите в «Библиотеки» и нажмите «Новая библиотека».


Расширенный поиск в Windows — это то, что мне пришлось искать только для этого, но у How-To Geek есть очень информативная статья об этом. Статья

Также убедитесь, что у вас включен поиск по содержимому файла: wikiHow: Как заставить Windows 7 выполнять поиск по содержимому файла


Приложение: после написания этого я заметил, что ОП запросил Windows XP. Я продолжаю это, даже если это не принято для кого-то еще, кто приходит (и поэтому я не тратил 30 минут).

Насколько хорошо он масштабируется? В частности, может ли он эффективно обрабатывать размер, указанный в вопросе, без перегрузки системы как при индексации, так и при поиске? Может ли он индексировать содержимое текстовых PDF-файлов? EPUB?
Я не думаю, что Проводник увязнет в системе (за счет, возможно, более медленного поиска). Индексирование PDF возможно с помощью Adobe IFilter .dll, adobe.com/support/downloads/detail.jsp?ftpID=4025 . Я не смог найти аналогичный для EPUB, так что потенциально нет.
Систему не глючит? Он увязает при открытии (забудьте о поиске) каталога с несколькими тысячами файлов в нем!!!
Вы задали вопрос, и я дал вам свой лучший ответ. Для меня перегрузка системы означает замедление других процессов (т. е. загрузка процессора). Да, конечно, поиск тысяч файлов займет некоторое время. Я не думаю, что вы найдете единственную программу, которая может выполнять поиск в вашей значительной библиотеке с большой скоростью.
Я не имел в виду индексацию. Я имел в виду отображение результатов. Все может мгновенно отображать тысячи результатов. Проводник Windows зависнет
NB Одна из причин того, что Windows со временем начинает замедляться, заключается в том, что индексация включена по умолчанию и замедляет работу машины все больше и больше. В результате это, вероятно, одна из наиболее часто отключаемых функций!
Источник пожалуйста. Я провел поиск и не смог найти поддающихся количественной оценке данных об индексе, замедляющем работу компьютера.

Восстановить (поиск на рабочем столе)

 

Вы можете найти список менеджеров поиска на рабочем столе в Википедии , но я считаю проект с открытым исходным кодом Regain разумным выбором, кроме того, он бесплатный (как в libre), а также с открытым исходным кодом и все еще находится в разработке, что означает появление новых функций ( полный список функций здесь ).

Краткое описание

Regain — это поисковая система Java, основанная на Jakarta Lucene. Он обеспечивает индексирование и поиск файлов для множества форматов (HTML, XML, doc (x), xls (x), ppt (x), oo, PDF, RTF, mp3, mp4, Java). TagLibrary упрощает интеграцию результатов поиска в вашу веб-страницу на основе JSP.

Основные функции, которые я считаю очень полезными:

  • веб-сервер (чтобы к нему можно было получить доступ в локальной сети на всех устройствах в вашей локальной сети)
  • значок в трее (быстрый доступ)
  • кешированная версия проиндексированного файла (иногда загрузка большого PDF не окупается)
  • ключевые слова для поиска (мощный набор ключевых слов Lucent)
  • может поддерживать дополнительные форматы (снова поддерживает I-Filter)
  • поддерживает API

Всего несколько снимков:

введите описание изображения здесь

введите описание изображения здесь

Я бы хотел использовать это, но документации не хватает...

DocFetcher с открытым исходным кодом проиндексировал для меня более 10 000 книг в формате epub. Процесс индексации быстрый, а полнотекстовый поиск по всем этим книгам (после индексации) занимает всего несколько секунд.

Настольный поиск Copernic

Для полнотекстового подхода используйте либо Windows Search, либо Copernic Desktop Search (50 долларов за полную версию, бесплатная версияLite ») для некоммерческого использования ограничена 75 000 файлов).

В частности, Copernic Desktop Search обладает всеми необходимыми возможностями. Я протестировал его с 4 000 000 документов, поиск по-прежнему был очень быстрым. Он распознает такие операторы, как И, ИЛИ, НЕ, РЯДОМ, чтобы помочь вам в поиске.

Возможно , DocFetcher мог бы помочь.

С главной страницы:

Приложение работает в Windows, Linux и Mac OS X и доступно под лицензией Eclipse Public License .

Примечательные особенности

  • Портативная версия : существует портативная версия DocFetcher, которая работает в Windows, Linux и Mac OS X. Чем это полезно, более подробно описано ниже на этой странице.
  • Поддержка 64-разрядных систем: поддерживаются как 32-разрядные, так и 64-разрядные операционные системы.
  • Поддержка Unicode : DocFetcher поставляется с надежной поддержкой Unicode для всех основных форматов, включая Microsoft Office, OpenOffice.org, PDF, HTML, RTF и обычные текстовые файлы. Единственным исключением является CHM, для которого у нас пока нет поддержки Unicode.
  • Поддержка архивов : DocFetcher поддерживает следующие форматы архивов: zip, 7z, rar и все семейство tar.*. Расширения файлов для zip-архивов можно настраивать, что позволяет добавлять дополнительные форматы zip-архивов по мере необходимости. Кроме того, DocFetcher может обрабатывать неограниченное количество вложенных архивов (например, zip-архив, содержащий 7z-архив, содержащий rar-архив... и т. д.).
  • Поиск в файлах с исходным кодом . Расширения файлов, по которым DocFetcher распознает простые текстовые файлы, можно настроить, чтобы вы могли использовать DocFetcher для поиска в исходном коде любого типа и других текстовых форматах файлов. (Это хорошо работает в сочетании с настраиваемыми расширениями zip, например, для поиска в исходном коде Java внутри файлов Jar.)
  • Файлы Outlook PST : DocFetcher позволяет искать электронные письма Outlook, которые Microsoft Outlook обычно хранит в файлах PST.
  • Обнаружение пар HTML : по умолчанию DocFetcher обнаруживает пары файлов HTML (например, файл с именем «foo.html» и папку с именем «foo_files») и рассматривает пару как один документ. Поначалу эта функция может показаться довольно бесполезной, но оказалось, что это резко повышает качество результатов поиска при работе с HTML-файлами, поскольку из результатов исчезает весь «беспорядок» внутри HTML-папок.
  • Исключение файлов из индексации на основе регулярных выражений: вы можете использовать регулярные выражения, чтобы исключить определенные файлы из индексации. Например, чтобы исключить файлы Microsoft Excel, вы можете использовать следующее регулярное выражение: .*.xls
  • Обнаружение MIME-типа: вы можете использовать регулярные выражения, чтобы включить «обнаружение MIME-типа» для определенных файлов, что означает, что DocFetcher попытается определить их фактические типы файлов не только по имени файла, но и по его содержимому. . Это удобно для файлов с неправильным расширением.
  • Мощный синтаксис запроса : в дополнение к базовым конструкциям, таким как ИЛИ, И и НЕ, DocFetcher также поддерживает, среди прочего: подстановочные знаки, поиск по фразе, нечеткий поиск («найти слова, похожие на...»), поиск по близости («эти два слова должны быть отделены друг от друга не более чем на 10 слов"), повышение ("увеличение оценки документов, содержащих...")

Поддерживаемые форматы документов

  • Microsoft Office (doc, xls, ppt)
  • Microsoft Office 2007 и новее (docx, xlsx, pptx, docm, xlsm, pptm)
  • Microsoft Outlook (PST)
  • OpenOffice.org (odt, ods, odg, odp, ott, ots, otg, otp)
  • Переносимый формат документа (pdf)
  • EPUB (епаб)
  • HTML (html, xhtml, ...)
  • TXT и другие текстовые форматы (настраиваемые)
  • Расширенный текстовый формат (rtf)
  • AbiWord (abw, abw.gz, zabw)
  • Скомпилированная HTML-справка Microsoft (chm)
  • Метаданные MP3 (mp3)
  • Метаданные FLAC (flac)
  • Метаданные JPEG Exif (jpg, jpeg)
  • Microsoft Visio (VSD)
  • Масштабируемая векторная графика (svg)

WinGrep

Вы можете искать по запросу заданные слова даже в двоичных файлах (обратите внимание, что это не будет работать для некоторых PDF-файлов, например, со сканеров). с wingrep - это бесплатно и будет искать даже внутри файлов .zip. Я не замедляю работу ПК все время и не использую много места на диске, так как не строит индексы, но в результате работает не так быстро. Он бесплатный от Micro$oft, поэтому, вероятно, будет работать с большинством разновидностей Windows.

Калибр Менеджер электронных книг

Не ищет внутри файлов AFAIK , но ищет метаданные электронных книг , и вы можете редактировать метаданные, но caulibre имеет следующие функции:

  • Это специально для обслуживания библиотек электронных книг,
  • может конвертировать между форматами для вас,
  • включает просмотрщики для многих форматов,
  • может управлять электронными книгами на большинстве устройств.

Он бесплатный и с открытым исходным кодом и будет работать практически везде.

Я настоятельно рекомендую получить его, что бы вы ни делали.