Различия для HTML-страниц

У меня есть несколько сотен HTML-файлов, содержимое которых очень похоже. Я ищу программу с графическим интерфейсом для Windows, которая позволила бы мне определить область в HTML (например, таблицу), которая должна различаться во всех файлах HTML.

Например, дано:

файл1.html:

<table>hey<table>

файл2.html:

<table>hey<table>

файл3.html:

<table>hello<table>

Разница должна показать, что файл file3.html содержит что-то другое в таблице.

Я знаю, как его кодировать (например, Python + Beautiful Soup), но мне интересно, существует ли какая-либо существующая программа для этой цели.

Вы хотите указать определенные области в файлах для сравнения (например, это не сравнение файлов целиком)? Как бы вы обозначили эти области?
@IraBaxter Например, выбор текста на странице HTML или элемента, как в инструментах разработчика Chrome.
Что вы пытаетесь достичь на высоком уровне? Вы хотите сравнить только два файла за раз или сравнить список файлов с одним файлом или что? Вы хотите сравнить содержимое визуализированных веб-страниц или исходный HTML-код?
@MartinCarney Я загружал веб-страницу каждые 30 секунд в течение нескольких дней. Страница содержит таблицы, которые иногда меняются. Я хочу обнаружить такие изменения.
Так что вас больше интересуют данные в таблице, чем html-разметка. Если данные ответы не решают эту проблему для вас, вам, вероятно, лучше что-то закодировать. Существует множество библиотек для чтения html/xml практически на каждом языке программирования, поэтому вам просто нужно перейти к таблице и извлечь данные, а затем сравнить их.

Ответы (2)

Я фанат инструмента сравнения Meld для такого рода вещей. Он позволяет вам сравнивать до 3 файлов одновременно, по запросу, но также при необходимости будет сравнивать целые каталоги.

Всего несколько функций с их домашней страницы:

  • Двух- и трехстороннее сравнение файлов и каталогов
  • Сравнение файлов обновляется по мере ввода
  • Режим автоматического слияния и действия над блоками изменений упрощают слияние.
  • Визуализации упрощают сравнение ваших файлов
  • Поддерживает Git, Bazaar, Mercurial, Subversion и т. д.

Вот небольшое изображение с сайта Meld для возможности сравнения, которое показывает блоки различий или небольшое изменение в одной строке:

введите описание изображения здесь

Он работает в Windows, имеет пакеты для большинства дистрибутивов Linux и даже имеет версию для Mac, поэтому вы можете менять среду, если хотите.

Попробуйте Beyond Compare . Он очень гибкий, поддерживает множество форматов и теперь сравнивает 3 файла.

Вы можете использовать псевдоним для раздела из одного файла в другом файле, даже если автоматический сканер отклоняет сходство. То есть вы можете заставить его сравнивать разделы, которые вы хотите сравнить.

Текстовые файлы можно просматривать и редактировать с подсветкой синтаксиса и правилами сравнения, настроенными специально для документов, исходного кода и HTML.

Не могли бы вы отредактировать свой ответ и указать, как Beyond Compare отвечает требованию «позволит мне определить область в HTML (например, таблицу), которая должна быть разнесена во всех файлах HTML»?