Программное обеспечение для анализа содержимого веб-сайта и его анализа.

Ребята, есть ли программное обеспечение или библиотека, которую я могу использовать для анализа содержимого всего веб-сайта, а затем выполнять анализ, например, какое слово наиболее часто используется на сайте? Самый активный пользователь? и т.д.

Я хочу разобрать весь сайт, скажем, если это форум, я хочу получить доступ ко ВСЕМ данным на сайте. Все посты сделаны.

Есть ли у вас контроль или доступ к веб-серверу? Или вы спрашиваете об анализе веб-сайта извне?

Ответы (1)

Вам понадобится несколько инструментов для достижения вашей цели.

Очистка экрана

Сначала вам нужно получить веб-страницу и выполнить синтаксический анализ, чтобы извлечь значимое содержимое, удаленное из мякины HTML-разметки.

проект jsoup

Для Java я предлагаю библиотеку jsoup . Слово «суп» — это милая отсылка к неправильной HTML-разметке, являющейся «теговым супом» . Эта библиотека хорошо зарекомендовала себя в некоторых проектах и ​​используется в основных программах, таких как Vaadin .

Библиотека jsoup выполняет как задачи извлечения страницы, так и анализа содержимого этой страницы. Кстати, этот процесс обычно называют «очистка веб-страниц» или «очистка экрана».

Вы также можете выбрать один из многих других парсеров HTML .

Полнотекстовое индексирование

Чтобы отслеживать использование слов, вам необходимо полнотекстовое индексирование.

логотип проекта Apache Lucene

Ведущим продуктом для этого является проект Apache Lucene . Построен на Java, но также портирован на несколько других языков.

Цитирую Википедию:

Несмотря на то, что Lucene подходит для любого приложения, требующего возможности полнотекстового индексирования и поиска, он получил широкое признание благодаря своей полезности при внедрении поисковых систем в Интернете и локальном поиске по одному сайту.

Lucene включает функцию выполнения нечеткого поиска на основе расстояния редактирования.

логотип системы управления базами данных PostgreSQL

Другой подход заключается в использовании мощной базы данных, такой как Postgres, которая поддерживает полнотекстовое индексирование и поиск.

Разбор журнала

Чтобы определить активных пользователей, вам потребуется проанализировать журналы веб-сервера.

См. страницу Википедии для программного обеспечения для анализа веб-журналов .