Скачать весь веб-сайт с суб-URL первой степени

Я хотел бы загрузить веб-сайт и все его суб-URL-адреса первой степени в виде файлов txt или html. Например, я хотел бы скачать:

google.com и google.com/10001 и google.com/10002 и т. д., но не google.com/1001/1002

HTTrack не замедляет загрузку, но перед загрузкой сканирует все URL-адреса, что очень и очень медленно.

Программное обеспечение должно работать в Windows и быть бесплатным.

Мне нужно обойти robot.txt

Ответы (1)

Разве HTTrack не должен позволять устанавливать уровень рекурсии? Смотрите это :

httrack THE_SITE_URL -O /tmp/размеры обуви -r50

В этом примере мы ограничиваем непосредственную глубину до 50 уровней. Как правило, веб-сайты не уходят намного глубже, чем на 20 уровней или около того, и если подумать, если есть только 2 подкаталога на каждом уровне каталога, структура каталогов глубиной 50 будет иметь около 10 триллионов каталогов. Конечно, многие сайты имеют небольшое количество файлов на много уровней в структуре каталогов по разным причинам. В некоторых случаях символическая ссылка также вызывает бесконечную рекурсию уровней каталогов, поэтому рекомендуется установить ограничение.

-----В противном случае--- VisualWget должен помочь вам сделать это. Установка глубины/уровня рекурсии должна вам помочь.

Стороннее руководство по VisualWget

Однако ссылка на VisualWget в этом руководстве не работает. Google немного, и вы должны найти фактический. Я обновлю это немного позже. (Я использовал его вчера дома.)