Как я должен делиться (цитировать) своими наборами данных и файлами анализа/кода R в своей диссертации?

Я пытаюсь следовать некоторым передовым методам движения «открытая наука». В своей диссертации я выполнил все анализы в R (непатентованная программа с открытым исходным кодом для анализа данных), и мои наборы данных представлены в непатентованном формате CSV.

Я хотел бы быть максимально прозрачным, делясь своими наборами данных и файлами анализа/кода R с моим тезисным комитетом и, в конечном итоге, с общественностью после того, как моя диссертация будет завершена и помещена в репозиторий. Как мне лучше всего это сделать?

Я думал о том, чтобы загрузить свои файлы в Open Science Framework ( http://osf.io ) и цитировать их с помощью обычной ссылки HTTPS. Как только моя диссертация будет завершена, я «заморозил» их на веб-сайте OSF (насколько я понимаю, это предотвратит апостериорные изменения), затем получил DOI, указывающий на замороженные файлы, и процитировал их.

Есть ли лучшие варианты?

Это кажется слишком сложным. Ознакомьтесь с пакетом списков LaTeX, чтобы включить код непосредственно в свою диссертацию.
Я проверю это, спасибо. Однако мой код R состоит из нескольких тысяч строк и организован в несколько файлов для каждого эксперимента, поэтому я подозреваю, что было бы более уместно ссылаться на него извне.
Я планирую сделать то же самое с моим исследовательским кодом и данными на GitHub.
Если вы еще этого не сделали, убедитесь, что ваш код R аккуратно оформлен (например, с помощью пакета formatR) и подробно прокомментирован. Вероятность того, что кто-то потратит время на чтение и понимание солидного блока непонятного кода, близка к нулю.
В ответах на этот вопрос есть несколько неплохих примеров того, как это делают другие: academia.stackexchange.com/q/87255/417 Если у вас есть тысячи строк R, вам следует подумать об организации их в пакет R.

Ответы (3)

Во-первых, наилучшие комплименты за ваше стремление к открытому и воспроизводимому исследованию!

Ваш код и наборы данных должны сделать ваши исследования более заметными. GitHub — хорошая альтернатива для публикации вашего кода. Если ваши наборы данных содержат элементы машинного обучения, вы можете передать их в репозиторий машинного обучения UCI.

Проверьте фигшер . У меня нет претензий, но я все еще в рамках бесплатной квоты.

Недавно я наткнулся еще на 3 интересных репозитория данных:

Я понимаю, что этот вопрос старый, но позвольте мне поделиться своим мнением. OSF является одним из стабильных открытых репозиториев данных, как Figshare, Zenodo и многие другие подобные бесплатные сервисы. Многие ученые использовали его, и я пока не слышал жалоб на его связь или стабильность DOI с течением времени. Так что для студентов или любого ученого очень полезно публиковать свой набор данных и код отдельно в этом репозитории.

Я знаю, что вы также можете сделать это по-старому, внедрив код и данные непосредственно в документ (статью или диссертацию), но настоятельно рекомендуется сделать их доступными отдельно, чтобы повысить наглядность вашей работы. Другой ученый может цитировать его так же, как он цитирует другой научный документ, добавляя ссылку и DOI.

Вы всегда можете связаться с командой OSF, чтобы получить совет о том, как максимизировать свою учетную запись OSF или как правильно цитировать документы OSF.

Просто сделайте это еще раз для будущих исследований, учитывая, что вы уже должны получить высшее образование.

С наилучшими пожеланиями.