Kristof

Библиотека Java для очистки веб-сайтов


Библиотека Ява Выскабливание Софт

Я ищу хорошую библиотеку, которая поможет мне очистить информацию на определенном веб-сайте. Путь, который должен выполнить скребок, может быть довольно динамичным, что означает, что если начальная царапина находится на странице типа 1, следующая будет на странице A, в противном случае на странице B и т. Д .; т.е. в зависимости от очищенной информации, она должна следовать другой логике.

Я рассматривал Selenium как возможную помощь здесь, но для этого могут быть более эффективные варианты, характерные для выскабливания, а не для тестирования.

Ответы


Michael

jsoup - очень хорошая библиотека для анализа и очистки страниц HTML.

  • Он имеет простой и простой в использовании API
  • Он активно развивается и с открытым исходным кодом
  • Он не имеет зависимости от других библиотек

Я использовал его в проекте, и он отлично работал.


Dawny33

Некоторые библиотеки соскабливания с открытым исходным кодом для Java:

  1. Jsoup (рекомендую)
  2. Webscrap4j
  3. Механизировать

Но Jsoup и Webscrap4j очень удобны в использовании и удобны в использовании с хорошей документацией.

Смотри также