Инструмент для консолидации данных на нескольких жестких дисках и составления списка различий между наборами файлов

У меня есть несколько жестких дисков, которые я использовал на протяжении многих лет для резервного копирования своих данных. Каждый из них имеет различную структуру папок и набор файлов. Теперь у меня есть массивный NAS, на котором я хочу консолидировать все свои данные. Я создал новую структуру папок на NAS и перенес большую часть своих данных.

Кто-нибудь знает инструмент, который мог бы проиндексировать мой NAS, а затем сравнить любой другой жесткий диск, папку или другой носитель и перечислить, какие папки / файлы отсутствуют на NAS.

Я считаю, что мог бы написать сценарий, который будет md5/sha1 каждый файл на NAS и помещать эти данные в базу данных. Затем скрипт мог бы сравнить эти хэши и перечислить различия. Я надеюсь на лучшее решение, если оно существует.

Вы не возражаете против того, чтобы гитхабить/поделиться своим скриптом? У меня есть около 20 ТБ фотографий и т. Д., И я подумал об аналогичном решении, сохраняя все различные имена и даты файлов в текстовом файле для справки или включая их в метаданные для каждого файла. В какой-то момент я подумал, что можно будет использовать функцию автоматической загрузки Dropbox для консолидации данных, поскольку она не загружает уже загруженные фотографии, но вам нужно несколько ТБ на вашем компьютере для передачи каждого диска для DP. Также их система замедляется за пределами 300k файлов.

Ответы (2)

Чтобы закрыть этот вопрос, я действительно ничего там не нашел.

В итоге я написал скрипт на Python, который читал все файлы на диске и сохранял хэш MD5 каждого из них в базе данных.

Затем я создал еще один сценарий, который считывал содержимое диска для сравнения и поиска MD5 в базе данных, чтобы узнать, существует ли уже файл. Это не идеально, но это сработало.

Можно передавать фотографии, скажем, кусками по 20-100 ГБ за раз на SD-карту или USB-флеш-карту и использовать загрузчик Dropbox для сканирования флэш-накопителя и автоматической загрузки только новых файлов в Dropbox. После загрузки уникальных файлов в Dropbox их все можно загрузить на новый жесткий диск. Это было даже если вы не используете Dropbox регулярно, вы можете использовать их в течение нескольких дней или недель, просто чтобы выполнить свою работу. Также можно написать скрипты в оболочке unix, Ruby, PHP или Python для создания базы данных и передачи уникальных файлов, которые вы, кажется, сделали. Решение Dropbox предназначено для неспециалистов. Надеюсь, это поможет другим.