Существует ли программное обеспечение PDF, способное находить, извлекать, выбирать и затем суммировать аннотации/комментарии на основе критериев поиска?

  • Вот ситуация : у меня есть 700 pdf файлов в одной папке (эти файлы должны быть там!). Каждый файл содержит десятки или сотни аннотаций/комментариев. Каждая аннотация/комментарий содержит ключевые слова для идентификации проекта или темы .

  • Вот необходимость : Для данного проекта/темы собрать в одном pdf-файле все аннотации/комментарии из всех pdf-файлов в этой папке, аннотации/комментарии, относящиеся к данному проекту.

  • Детали : Здесь есть две операции: 1) поиск/извлечение аннотаций/комментариев; 2) затем выбрать только найденные аннотации/комментарии и свести их в pdf-файл.

  • Вот вопрос : существует ли программное обеспечение PDF, способное находить, извлекать, выбирать, а затем суммировать аннотации / комментарии на основе критериев поиска в качестве ключевого слова , например, названия проекта ?

  • Мой опыт : я пробовал много программ, но безрезультатно. XChange Editor 6 был близок к этому. Он может сделать первую операцию. Панель поиска может отображать только те аннотации/комментарии, основанные на поиске по заданному ключевому слову из всех pdf-файлов (поиск можно выполнять в аннотациях/комментариях). Это очень удобно, так как вы можете перемещаться по найденным аннотациям/комментариям. Но, поскольку вторую операцию, т.е. отбор и обобщение только найденных аннотаций/комментариев, он сделать не в состоянии, мне приходится каждый раз повторять поиск, когда я хочу поработать над данным проектом или темой.

Вот скриншот, чтобы помочь понять, что я имею в виду:

введите описание изображения здесь

Как видите, я использую XChange Editor. Итак, как я уже сказал, XChange Editor идет на полпути. Слева мы видим выделенный желтым текст с открывающимся всплывающим сообщением. Я добавляю в первую строку всплывающего сообщения код проекта 0025 и тег/ключевое слово темы, в этом случае тег «Frege». За этой строкой следует выделенный текст, который XChange автоматически скопировал во всплывающее сообщение.

Справа вы видите панель поиска. Панель поиска выполняет первую операцию, как я определил: поиск/извлечение аннотаций/комментариев на основе критерия поиска. В этом случае критерием поиска является «0025», как вы можете видеть в разделе « Расширенный критерий ». Это возможно, поскольку с помощью кнопки « Параметры... » я могу указать поиск только в комментариях. Под параметрами поиска есть результаты. Это действительно мощно, так как я могу перемещаться по каждому комментарию, найденному поисковой системой.

Теперь я хотел бы собрать или обобщить эти результаты, эти комментарии, комментарии, которые поступают из многих pdf-файлов (каждая жирная строка в окне результатов — это pdf-файл), в одном pdf-файле. Именно эту вторую операцию XChange Editor не может выполнить. И если на то пошло, ни один из существующих pdf-редакторов, которые я пробовал, не может этого сделать. Конечно, редактор XChange может суммировать комментарии из одного файла на основе критериев сортировки (тип, автор, дата и т. д.), но не критериев поиска (например, «0025» в моем примере).

Итак, если позволите, повторю свой вопрос:

Существует ли программное обеспечение PDF, способное находить, извлекать, выбирать, а затем суммировать аннотации/комментарии из набора файлов PDF на основе критериев поиска , например , название проекта как «0025» в моем случае? Если речь идет о платных решениях, я готов платить до 10$/год.

Большое спасибо,

Франсуа

Иззи изменить мой пост. Это законно?
Да, на этом сайте всем приветствуются улучшения сообщений других людей, если сохраняется дух вопроса и не теряется информация о требованиях. Но в данном конкретном случае я не уверен, почему @Izzy удалила информацию о бюджете, которая казалась актуальной.
@NicolasRaoul Я не удалил это, я добавил (объединил факты из комментариев). Сам Франсуа снова удалил его. Так что вы должны спросить его, почему он так поступил — я согласен с вами, что это уместно. // Франсуа: Как сказал Николя, мы помогаем друг другу совершенствоваться. Факты должны содержаться в самом сообщении с вопросом, так как они теряются в комментариях. О законности: вы явным образом согласились разместить свой контент под лицензией CC, см. самый низ этой страницы ;)
PS: Иззи сделал это снова. Иззи и Николас являются здесь модераторами (о чем можно судить по значку ♦, прикрепленному к их никам), поэтому они уделяют особое внимание качеству этого сайта — и, как и каждый член сообщества здесь, стараются помочь особенно новичкам, чтобы их вопросы лучшие шансы на хорошие ответы. Вот почему важные детали должны быть видны;)
@ Иззи и Рауль Извините, я не понял, как вы работаете в StackExchange. Это не стандартный подход для большинства дискуссионных форумов. Тем не менее, если вы можете помочь мне в любом случае.
«Это не стандартный подход для большинства дискуссионных форумов». Конечно нет. Это сайт вопросов и ответов, а не форум :) Обсуждения проходят в нашем чате (еще 10 реп, и вы тоже можете им пользоваться). На основном сайте у нас есть вопросы и ответы, но нет обсуждений. Комментарии даны для уточнения, поэтому суть желательно интегрировать с соотв. вопрос ответ. Наш тур объясняет некоторые из них.

Ответы (1)

Zotero с pdftotextинструментами (устанавливается автоматически по запросу) может выполнять полнотекстовый поиск, извлекать аннотации, TOC и создавать отчеты по огромной базе данных с тысячами PDF-файлов.