Программное обеспечение для анализа содержимого веб-сайта и его анализа.

Question

Программное обеспечение для анализа содержимого веб-сайта и его анализа.

парсер
Софт
веб-приложения
анализ данных

Георгий

Ребята, есть ли программное обеспечение или библиотека, которую я могу использовать для анализа содержимого всего веб-сайта, а затем выполнять анализ, например, какое слово наиболее часто используется на сайте? Самый активный пользователь? и т.д.

Я хочу разобрать весь сайт, скажем, если это форум, я хочу получить доступ ко ВСЕМ данным на сайте. Все посты сделаны.

Базиль Бурк

Есть ли у вас контроль или доступ к веб-серверу? Или вы спрашиваете об анализе веб-сайта извне?

Ответы (1)

Программное обеспечение для анализа содержимого веб-сайта и его анализа.

Есть ли у вас контроль или доступ к веб-серверу? Или вы спрашиваете об анализе веб-сайта извне?

Базиль Бурк · Answer 1

Вам понадобится несколько инструментов для достижения вашей цели.

Очистка экрана

Сначала вам нужно получить веб-страницу и выполнить синтаксический анализ, чтобы извлечь значимое содержимое, удаленное из мякины HTML-разметки.

проект jsoup

Для Java я предлагаю библиотеку jsoup . Слово «суп» — это милая отсылка к неправильной HTML-разметке, являющейся «теговым супом» . Эта библиотека хорошо зарекомендовала себя в некоторых проектах и используется в основных программах, таких как Vaadin .

Библиотека jsoup выполняет как задачи извлечения страницы, так и анализа содержимого этой страницы. Кстати, этот процесс обычно называют «очистка веб-страниц» или «очистка экрана».

Вы также можете выбрать один из многих других парсеров HTML .

Полнотекстовое индексирование

Чтобы отслеживать использование слов, вам необходимо полнотекстовое индексирование.

логотип проекта Apache Lucene

Ведущим продуктом для этого является проект Apache Lucene . Построен на Java, но также портирован на несколько других языков.

Цитирую Википедию:

Несмотря на то, что Lucene подходит для любого приложения, требующего возможности полнотекстового индексирования и поиска, он получил широкое признание благодаря своей полезности при внедрении поисковых систем в Интернете и локальном поиске по одному сайту.

Lucene включает функцию выполнения нечеткого поиска на основе расстояния редактирования.

логотип системы управления базами данных PostgreSQL

Другой подход заключается в использовании мощной базы данных, такой как Postgres, которая поддерживает полнотекстовое индексирование и поиск.

Разбор журнала

Чтобы определить активных пользователей, вам потребуется проанализировать журналы веб-сервера.

См. страницу Википедии для программного обеспечения для анализа веб-журналов .

Программное обеспечение для анализа содержимого веб-сайта и его анализа.

Георгий

Базиль Бурк

Ответы (1)

Базиль Бурк

Очистка экрана

проект jsoup

Полнотекстовое индексирование

Разбор журнала

Возвращает уникальный отчет/список/таблицу на основе введенных пользователем критериев, пропущенных через ряд деревьев решений.

Система управления эффективностью персонала

Интуитивно понятный инструмент для фильтрации нескольких файлов CSV или нескольких столбцов в одном файле CSV со сложными запросами IF

Альтернатива Linux сводной таблице Excel

Защищенный онлайн-чат для обмена мгновенными сообщениями — однократный разговор

Веб-приложение для распространения обновлений программного обеспечения среди клиентов (поддержка клиентов)

CMS для бизнес-сайта

Единый вход через Интернет

Библиотеки открытия/чтения файлов

Веб-приложение для подсчета количества открытых вкладок Chrome