Архивирование цифровых документов для длительного использования [закрыто]

Как я могу быть уверен, что мы сможем прочитать документ .docx примерно через 100 лет? У меня большая коллекция документов на жестком диске (включая письма, резюме и прочее). Я хочу, чтобы они были читабельны и доступны на ближайшее время (10 лет), а если возможно, то и на 100 лет!

Какой формат будет целесообразным?

Добро пожаловать в Лайфхаки! К сожалению, здесь это не совсем по теме. Можно попробовать суперпользователя.

Ответы (4)

Здесь есть 3 аспекта:

  1. данные сохраняются;
  2. существует программное обеспечение для чтения данных; и
  3. оборудование существует для запуска программного обеспечения.

Чтобы обеспечить сохранность данных, скопируйте их несколько раз на несколько устройств (USB-накопитель, DVD, облако и т. д.). Запустите программу сравнения файлов, например diff , чтобы убедиться, что процесс копирования работает правильно. Носитель со временем деградирует, поэтому периодически создавайте новые копии.

Чтобы обеспечить наличие программного обеспечения, используйте стандартные форматы, такие как PDF. Каждый раз, когда вы меняете компьютер, убедитесь, что вы все еще можете открывать и читать файлы. Если вы не можете, поговорите с тем, кто создал старое программное обеспечение, чтобы оно работало на новом компьютере. В зависимости от того, насколько отличаются старая и новая системы, это может быть дорого. Однако это также обеспечивает наличие аппаратного обеспечения для запуска программного обеспечения.

Я храню все свои файлы в формате pdf с резервными копиями txt. Оба формата доступны для Mac/Windows/Linux, а txt-файлы рассчитаны на будущее (хотя pdf-файлы более аккуратны).

Что касается совместимости, то чем проще, тем лучше. Я хотел бы предложить два предложения.

  1. Храните документы в виде обычного текста. Такие форматы, как *.docx в MS Word или *.pdf в Adobe, добавляют форматирование и много дополнительной информации, а не просто сохраняют буквы, из которых состоит документ. Вот как вы получаете центрированный текст, таблицы, различные шрифты, полужирный/курсив/подчеркивание и т. д. Файлы обычного текста просто хранят коды ASCII (числовые) для всех символов в ваших документах - все буквы, цифры, видимые символы, пробелы. и разрывы строк. Если вы используете ПК, файлы этого формата обычно имеют *.txt и доступны для просмотра в приложении «Блокнот».

  2. Храните документы в виде растровых изображений. Это займет МНОГО места, но невероятно просто и универсально. Растровые изображения — это просто большие сетки чисел. Каждая точка на сетке содержит число от 0 до 255, которое представляет цвет этого пикселя в конечном изображении. Итак, идея состоит в том, чтобы «сфотографировать» ваши текстовые документы и сохранить их в растровом формате. (Обратите внимание, что в краткосрочной перспективе эта идея вообще непрактична. Файлы будут огромными, и вы не сможете искать в них текст. Однако через сто лет, если компьютер найдет файл растрового изображения, Я бы поставил все деньги, которые у меня есть, на то, что на компьютере будет программа, которая сможет это отображать.)

Я бы не стал доверять PDF. Это сложный формат, который кажется простым только потому, что Adobe создала программное обеспечение для чтения для нескольких операционных систем. (Другие компании уже создали программное обеспечение для чтения.) Было бы разумно сохранять несколько форматов каждого файла. Один формат должен быть простым текстом. Нет никакого форматирования, кроме пробелов, табуляции и возврата. Вторая часть — физическая форма. Хорошая бумага служит сотни лет. Но у НАСА есть склады лент с первых полетов на Луну и нет ни считывателя, ни даже спецификаций для считывателя. Стандартный USB уходит в прошлое. Компьютеры не поставляются с дисководами для гибких дисков, а приводы CD/DVD встречаются редко. Я ожидаю, что стандартные флэш-накопители USB можно будет использовать еще не более 10 лет. Невозможно хранить цифровую информацию, которая не требует мониторинга, чтобы убедиться, что она по-прежнему действительна. Если среда устаревает, его можно скопировать во что-то новое. Кстати, это тема, интересующая библиотекарей.

PDF является открытым форматом: спецификация доступна, и любой может создать программу для чтения PDF с нуля. Он также разрабатывается и продается как формат долгосрочного хранения (особенно вариант PDF/A). Это делает его хорошим кандидатом на долгосрочное хранение. en.wikipedia.org/wiki/PDF/A
Мне нравится философия W3C по отделению содержимого от представления: текст и самая основная структура документа находятся в одном файле (HTML), а все причудливые вещи — в другом (CSS). И под «долгим сроком» я имею в виду сотни лет. Чем проще, тем лучше. Кроме того, текстовый файл будет очень маленьким, и его можно будет использовать вместе с PDF.