Ребята, есть ли программное обеспечение или библиотека, которую я могу использовать для анализа содержимого всего веб-сайта, а затем выполнять анализ, например, какое слово наиболее часто используется на сайте? Самый активный пользователь? и т.д.
Я хочу разобрать весь сайт, скажем, если это форум, я хочу получить доступ ко ВСЕМ данным на сайте. Все посты сделаны.
Вам понадобится несколько инструментов для достижения вашей цели.
Сначала вам нужно получить веб-страницу и выполнить синтаксический анализ, чтобы извлечь значимое содержимое, удаленное из мякины HTML-разметки.
Для Java я предлагаю библиотеку jsoup . Слово «суп» — это милая отсылка к неправильной HTML-разметке, являющейся «теговым супом» . Эта библиотека хорошо зарекомендовала себя в некоторых проектах и используется в основных программах, таких как Vaadin .
Библиотека jsoup выполняет как задачи извлечения страницы, так и анализа содержимого этой страницы. Кстати, этот процесс обычно называют «очистка веб-страниц» или «очистка экрана».
Вы также можете выбрать один из многих других парсеров HTML .
Чтобы отслеживать использование слов, вам необходимо полнотекстовое индексирование.
Ведущим продуктом для этого является проект Apache Lucene . Построен на Java, но также портирован на несколько других языков.
Цитирую Википедию:
Несмотря на то, что Lucene подходит для любого приложения, требующего возможности полнотекстового индексирования и поиска, он получил широкое признание благодаря своей полезности при внедрении поисковых систем в Интернете и локальном поиске по одному сайту.
Lucene включает функцию выполнения нечеткого поиска на основе расстояния редактирования.
Другой подход заключается в использовании мощной базы данных, такой как Postgres, которая поддерживает полнотекстовое индексирование и поиск.
Чтобы определить активных пользователей, вам потребуется проанализировать журналы веб-сервера.
См. страницу Википедии для программного обеспечения для анализа веб-журналов .
Базиль Бурк