Я хотел бы загрузить веб-сайт и все его суб-URL-адреса первой степени в виде файлов txt или html. Например, я хотел бы скачать:
google.com и google.com/10001 и google.com/10002 и т. д., но не google.com/1001/1002
HTTrack не замедляет загрузку, но перед загрузкой сканирует все URL-адреса, что очень и очень медленно.
Программное обеспечение должно работать в Windows и быть бесплатным.
Мне нужно обойти robot.txt
Разве HTTrack не должен позволять устанавливать уровень рекурсии? Смотрите это :
httrack THE_SITE_URL -O /tmp/размеры обуви -r50
В этом примере мы ограничиваем непосредственную глубину до 50 уровней. Как правило, веб-сайты не уходят намного глубже, чем на 20 уровней или около того, и если подумать, если есть только 2 подкаталога на каждом уровне каталога, структура каталогов глубиной 50 будет иметь около 10 триллионов каталогов. Конечно, многие сайты имеют небольшое количество файлов на много уровней в структуре каталогов по разным причинам. В некоторых случаях символическая ссылка также вызывает бесконечную рекурсию уровней каталогов, поэтому рекомендуется установить ограничение.
-----В противном случае--- VisualWget должен помочь вам сделать это. Установка глубины/уровня рекурсии должна вам помочь.
Стороннее руководство по VisualWget
Однако ссылка на VisualWget в этом руководстве не работает. Google немного, и вы должны найти фактический. Я обновлю это немного позже. (Я использовал его вчера дома.)