Каков предпочтительный способ обмена данными?

Предположим, есть данные, которыми вы, как автор журнальной статьи, хотите поделиться с читателями статьи (например, необработанные экспериментальные данные, код, золотой стандарт/наземные данные).

Как лучше всего это сделать? Возможности включают в себя:

  • Добавьте сноску, что данные доступны по запросу по электронной почте.
  • Сделайте данные доступными для загрузки на веб-странице учреждения.
  • Сделайте данные доступными для загрузки на вашей личной веб-странице.
  • Сделайте данные доступными через издателя статьи.
  • Что-то другое...
Что-то еще: Dataverse .
Межсайтовый дубликат: opendata.stackexchange.com/q/980/190
Что говорится в руководстве для авторов?
@Greg: В качестве аргумента предположим, что в этом отношении ничего не указано.
Для максимальной полезности не забудьте опубликовать данные под лицензией, которая явно разрешает их использование другими исследователями. В некоторых юрисдикциях права на базу данных, например, могут запрещать повторное использование, если только повторное использование не разрешено явным образом. Некоторые лицензии, например серия лицензий Creative Commons 4.0, изящно справляются с этим риском .

Ответы (5)

Наиболее распространенный и устойчивый способ — поместить данные в репозиторий исследовательских данных. В зависимости от того, какой из них вы выберете, данные получат постоянный идентификатор, например, DOI, могут быть правильно процитированы в публикациях, могут быть повторно использованы другими исследователями, ...

Вы можете найти список доступных репозиториев данных в re3data , реестре репозиториев исследовательских данных. Количество репозиториев продолжает расти. Даже ваше учреждение/университет может предложить институциональное хранилище данных.

Если это данные, представляющие общий интерес , перейдите в общедоступный репозиторий , как упоминал FuzzyLeapfrog (конечно, делайте это только в том случае, если у вас есть на это законное право).

Если это что-то очень специфичное для публикации (например, код, который создает результаты/графики/таблицы из публикации), то используйте «дополнительные ресурсы» от издателя (если они доступны и удобны).

Open Science Framework довольно хорош. https://osf.io/

Это не коммерческая недвижимость, которая является хорошей собственностью. Он предлагает гибкое архивное хранилище для проекта. Он имеет множество инструментов, предназначенных для хранения данных, кода и материалов в академической среде (например, вы даже можете поделиться ссылкой, которая скрывает имена авторов при отправке в рамках слепого обзора).

Для получения дополнительной информации посетите: https://osf.io/support/

Это зависит от поля. В моем регионе в настоящее время довольно распространено предоставление дополнительной информации в репозитории GitHub . GitHub, будучи в первую очередь платформой для обмена программным обеспечением, вполне подходит для такой задачи, так как исследование (в форме публикации журнала/конференции) обычно поддерживается некоторым кодом, который использовался для сбора данных и их обработки/анализа, самих наборов данных и описание этих наборов данных (т.е. метаданные). Кроме того, с помощью GitHub Pages легко создать набор веб-страниц или даже сайт .

Совместное использование данных на GitHub работает как шарм, если объем ваших наборов данных умеренный (скажем, <100 МБ). Если больше, то репозиторий Github может содержать код, метаданные, некоторые выборочные выдержки из наборов данных и, кроме того, указывать, как получить доступ к самим наборам данных. Последние могут быть прямыми ссылками на данные, хранящиеся, например, в Dropbox или другом онлайн-хранилище, в системе хранения вашего отдела/организации (если таковая имеется) и т. д. И/или это могут быть просто инструкции о том, как получить наборы данных (запрос по электронной почте и т. д.). Кроме того, там может быть указана любая другая сопутствующая информация — например, авторские права, как ссылаться на публикацию и/или вспомогательные материалы и т. д.

Так ли сильно преобладает GitHub по сравнению с другими git-хостингами, например BitBucket и прочими?
Конкретная платформа git, такая как GitHub, BitBucket, GitLab и т. д., не так важна, imo. Тем не менее, по умолчанию (плюс с учетом бесплатных планов) GitHub предпочтительнее, поскольку у него самая большая пользовательская база (следовательно, больше шансов, что ваш материал будет замечен). BitBucket (или GitLab) превосходит GitHub в разрешении частных репозиториев, но для академических проектов/данных (которые в основном с открытым исходным кодом, по крайней мере должны быть) это не является реальным недостатком. Bitbucket хуже, чем GitHub или GitLab, поскольку имеет ограничения на количество соавторов (не критично, но важно).
Наконец, Bitbucket лучше двух других с точки зрения интеграции с другими системами разработки/управления программным обеспечением (такими как JIRA), но это не имеет значения для большинства академических проектов.
Zenodo также может создать DOI для репозитория Github, упрощая цитирование: guides.github.com/activities/citable-code
Проблема с использованием платформы git заключается в том, что нет гарантии долговременной доступности. Вы не только полагаетесь на GitHub для бесплатного размещения ваших данных на неограниченный срок, но вы, как владелец, можете удалить или заменить данные чем-то другим, случайно или намеренно. Преимущество хранения в специализированном архиве состоит в том, что они обычно имеют некоторые технические и социальные гарантии доступности и постоянства, что важно, поскольку эти общие данные, по сути, становятся частью научных записей. Однако предложение Гуарава дает вам лучшее из обоих миров.

Почти все могут использовать файлы EXCEL (CSV), поэтому размещайте их на диске Google. Делитесь ссылками с электронными письмами, с которыми вы хотите быть. Никаких хлопот со сторонними серверами или службами передачи данных, а также универсально приемлемый формат CSV. Для очень больших данных разбить на файлы.

Вы не хотите беспокоить своих читателей созданием учетной записи Google, если у них ее нет.
Файлы Excel и файлы CSV сильно отличаются.
Как обрабатывать такие данные, как выходные данные климатической модели, содержащие многомерные данные с течением времени? Определенно не CSV! Как обеспечить доступность данных через 10 или 20 лет? Как насчет долгосрочного архивирования?