Периодически мне нужно проверять свои веб-сайты на предмет «гниения ссылок». Множественное число уже указывает на то, что это работа, которую нельзя выполнить вручную (на многие сайты и еще больше ссылок для проверки), поэтому мне нужен инструмент, который мне поможет.
Обязательные к приобретению:
Настоятельно предпочтительны:
Хорошо бы иметь:
Я уже пробовал:
1: Если, например, на отсканированном сайте страницы A, B и C ссылаются на Z (все еще на самом отсканированном сервере, т.е. без внешних ссылок), Z следует сканировать только один раз, а не 3 раза, как я испытал, например, с LinkChecker
2: Если сайт, например, предоставляет один и тот же контент на нескольких языках, нет смысла сканировать все языковые варианты (при условии, что ссылки на них идентичны). Поэтому я могу, например, захотеть проигнорировать lang=XX
параметр и заставить средство проверки ссылок учитывать a.php
, a.php?lang=en
и a.php?lang=de
ту же страницу. Это, конечно , может быть покрыто обязательным фильтром с RegEx, если lang
параметр является необязательным;)
3: Конечно, с помощью Cron STDERR
захвачено, поэтому основное внимание в этой почте уделяется «отформатированному». Это могут быть, например, расчетные листы ODF (которые затем можно «отфильтровать» с помощью OpenOffice/LibreOffice).
4: т.е. те сайты, которые запрашивают имя пользователя/пароль для доступа (код ответа HTTP 401); Я только что заметил , что LinkChecker добавил, что с v7.9 gUrlChecker также способен на это. Это в основном относится к сканируемому сайту , не обязательно к внешним ссылкам (если поддерживаются оба, это должно быть настроено отдельно)
5: если средство проверки ссылок, например, способно сканировать содержимое PDF, MSWord и любых других документов, должна быть возможность отключить это: на веб-сайте могут храниться «старые версии документов» для справки, где «устаревшие ссылки» считаются «нормальными». ". Исключение может происходить по MIME-типу или расширению файла.
Поскольку рекомендаций не было, я остановился на LinkChecker . Хотя большинство минусов, которые я перечислил в своем вопросе, остались, использование новейшей версии с сайта автора прошло лучше, чем запуск версии, поставляемой в репозитории.
Графический интерфейс и интерфейс командной строки LinkChecker (источник: LinkChecker ; щелкните изображения, чтобы просмотреть увеличенные варианты)
Способен сканировать сайты с требованием авторизации: Тщательно не тестировалось, но это кажется возможным — нужно настроить в linkcheckerrc
файле:
[authentication]
# Different user/password pairs for different URLs can be provided.
[…]
Возможность исключать типы файлов из сканирования: мне не приходилось сталкиваться с этим, поскольку LinkChecker , похоже, не обнаружил ни одного файла PDF или другого формата, который мог бы сканировать.
Хотя это не совсем то, что я ищу, LinkChecker подходит довольно близко — скорее всего, настолько близко, насколько я могу. Если вы столкнулись с чем-то лучше, соответствующим моим потребностям, я с нетерпением жду альтернатив :)
Ниваций
Иззи