Как долго нужно хранить исходные данные исследования/публикации?

Большинство журналов требуют, чтобы данные были доступны на момент публикации (репозиторий/по запросу и т.п.). Но как долго нужно хранить данные (в области (био)медицины)? Это было бы особенно интересно в связи с желанием ученых сохранить данные навсегда по сравнению с Общим регламентом защиты данных (GDPR).

Руководящие принципы журнала, приведенные ниже, похоже, не указывают этого ...

Почему вечное хранение данных противоречит GDPR?
Потому что согласно GDPR данные должны храниться как можно меньше времени
@Younes - Я думаю, если ваш эксперимент станет разумным и поселится в ЕС, могут возникнуть проблемы?
@lordy - Возможно, личные данные следует хранить как можно меньше времени. Но физические эксперименты — это не люди.
@JonCuster Я принял вопрос для биомедицины
В этом случае правила издателей НЕ ДОЛЖНЫ противоречить GDPR, и исследователь должен выполнить требования GDPR перед требованиями издателя (или журнала). Многие компании, не входящие в ЕС, были вынуждены изменить свои требования, чтобы они совпадали с GDPR. Я предполагаю, что это относится и к издателям.
@lordy Сколько ваших данных действительно можно идентифицировать лично?

Ответы (2)

Это вопрос, который вы должны задать финансирующему агентству, которое оплачивает вашу работу. Обычно у них есть требования к тому, как следует обрабатывать полученные данные.

В качестве примера, вот что говорит главное немецкое финансирующее агентство DFG :

Den Regeln der Guten Wissenschaftlichen Praxis folgend sollen Forschungsdaten in der eigenen Einrichtung oder in einer fachlich einschlägigen, über Regionalen Infrastruktur für mindestens 10 Jahre archiviert werden.

Мой грубый перевод:

Следуя правилам надлежащей научной практики, данные исследований должны храниться в вашем собственном учреждении или в актуальной национальной инфраструктуре не менее 10 лет.

Конечно, есть разные соображения, когда данные исследования содержат личную информацию, например данные пациентов. Я ничего не могу сказать о правилах, я рассматриваю только данные общедоступных исследований, которые не имеют никакого отношения к конфиденциальности.

В целом научное сообщество выигрывает, если данные остаются доступными навсегда. И хотя 10 лет в моем примере — это минимум, многие части произведенных данных, таких как публикации и депонирование структурированных данных в репозиториях, таких как кристаллические структуры в PDB, остаются заархивированными на неопределенный срок. И многие репозитории, такие как PDB, неуклонно увеличивают объем необработанных данных, которые они хотели бы получить вместе с окончательным выводом.

Вопрос «как долго я должен хранить данные моего исследования» в основном является синонимом вопроса «как долго мое исследование должно быть актуальным?» Как только ваша работа больше не может быть воспроизведена, ее ценность и возможность участвовать в обсуждении ее темы серьезно ограничиваются.

Это не означает, что вам обязательно нужно хранить свои наборы данных навсегда, но я действительно удивляюсь, почему кто-то когда-либо решит навязать устаревание своих собственных исследований. В Интернете есть много отличных решений, которые делают его обслуживание бесплатным и практически легким*. Что-то столь же простое, как размещение вашего кода на GitHub и ваших данных на Google Диске, обнародование и предоставление ссылки на них на вашем веб-сайте, решит проблему в обозримом будущем. Конечно, если Microsoft или Google когда-нибудь решат закрыть эти (чрезвычайно популярные) платформы, вам придется принять новые меры, но, по крайней мере, все это будет собрано в одном месте и готово к работе в другом месте.

Что касается GDPR, насколько я понимаю, это относится только к персональным данным. На самом деле, если вы откроете статью об этом в Википедии , в разделе «Исключения» четко перечислены научные исследования.

Единственное другое исключение, о котором я могу думать, — это случай частных или личных данных, таких как опросы о состоянии здоровья. В этом случае управление данными, вероятно, было (надеюсь?) изложено в первоначальных предложениях и/или передано в IRB.

* Я предполагаю, что ваши данные не являются «большими». Если ваша работа опирается на полтерабайта данных, все меняется. Но если вы работаете в области «больших данных», у вас, вероятно, уже есть больше знаний о том, как с ними работать.

См. §5(1b) и §89(1) GDPR .
Имейте в виду, однако: прогресс науки может изменить то, что достаточно псевдонимизировано (или не может быть идентифицировано лично) и что является личными данными. GDPR также требует, чтобы кто-то не отставал от таких изменений (и определенных бюрократических процедур), пока существуют данные — таким образом, хранение таких данных может привести к постоянным затратам и проблемам, намного превышающим несколько новых жестких дисков время от времени.