Как я могу показать, какие данные я использую в своей статье?

Я только начал читать статьи о распознавании речи и алгоритмах на графах среднего размера (~ 800 000 узлов и 4 400 000 ребер с некоторыми связанными текстовыми данными). Я думаю, что проблема этих работ довольно часто заключается в том, что трудно проверить экспериментальные результаты. Проверить их сложно по двум причинам:

  1. Исходный код, который использовался для создания результатов, недоступен (общедоступен)
  2. Данные либо вообще отсутствуют, либо неясно, какая версия данных использовалась

Когда я начинаю писать работы, я хотел бы, чтобы было легче проверять результаты.

Первую проблему легко решить: я могу просто предоставить исходный код (например, на GitHub или в моем личном веб-пространстве).

Вторая проблема, кажется, гораздо сложнее решить. Данные часто довольно большие (распознавание речи: несколько ГБ; графики: около 2 ГБ). Это слишком много, чтобы загружать его на мое личное веб-пространство / GitHub.

Как я могу показать, какие данные я использую в своей статье? (В настоящее время я даю ссылку на источник данных и отмечаю данные, когда загружаю их. Кроме того, я отмечаю дату/версию источника, если это возможно.)

Есть ли проекты, которые пытаются решить эту проблему? (например, предоставив место для важных/интересных проектов, таких как dblp , историю версий и хорошую скорость загрузки)

Как насчет фигшера и зенодо ? Я являюсь советником первого, поэтому могу сказать вам, что они, скорее всего, примут большие загрузки бесплатно. Я зависит от того, сколько это "несколько ГБ" :-) Для вас было бы преимуществом использовать такие системы, так как данные становятся легко обнаруживаемыми и могут быть процитированы.
Если у вас есть несколько долларов, которые вы можете потратить, вы можете купить диск Google или хостинг DropBox и получить общедоступную ссылку на несколько ГБ данных. Насколько я помню, общая папка DropBox и Google Диск поддерживают общедоступные ссылки. Покупать данные на Диске немного дешевле, но я считаю Dropbox немного более удобным для пользователя. Вместо этого у других могут быть услуги, которые они предпочитают.

Ответы (2)

Обе проблемы, о которых вы говорите, важны и (я думаю) очень проблематичны для дальнейшего развития информатики как реальной науки. Я работаю в сфере услуг / разработки программного обеспечения, и, честно говоря, воспроизводимость результатов очень и очень плоха в моей работе, как и в работе других.

Я прокомментирую оба ваших вопроса, начиная со второго:

Данные либо вообще отсутствуют, либо неясно, какая версия данных использовалась

Во многих случаях это на самом деле самая простая для решения проблема. Я бы предположил, что у вашего отдела есть ИТ-ресурсы (например, веб-пространство отдела), которые вы можете использовать для таких целей. Кроме того, существуют другие, более специализированные репозитории, в которые вы можете загружать данные (например, репозиторий наборов данных машинного обучения UCI или архив трассировок рабочей нагрузки Grid ). Предоставление данных общедоступным на самом деле является проблемой только в том случае, если вам не разрешено делать это из-за коммерческих интересов вашего поставщика данных. Например, у меня есть доступ к реальным следам выполнения бизнес-процессов крупного немецкого логистического провайдера, которые мне не разрешено разглашать. Это явно ограничивает полезность этих следов для меня.

Вторая проблема

Исходный код, который использовался для создания результатов, недоступен (общедоступен)

это довольно сложно на практике. Понятно, что закинуть свой код на Github легко, но вряд ли это решит проблему воспроизводимости. Вам все равно нужно будет включить довольно подробные инструкции по использованию и документацию, чтобы сделать этот код каким-либо полезным для другого исследователя. Это может показаться тривиальным для наивной реализации алгоритма в 1000 строк кода, но, например, мой текущий исследовательский прототип приближается к 25 000 строк кода Java плюс немного XML и Groovy. Просто поместить это в репозиторий недостаточно, если учесть, что статья может считаться воспроизводимой только в том случае, если это возможно сделать в разумные сроки . Дополнительная проблема в моей области заключается в том, что прототипы часто создаются для конкретной среды выполнения. Например, в моем отделе есть небольшой OpenStack.основанное на частном облаке, и многие демонстрационные устройства, которые реально строят наши студенты, работают только в этой среде без кардинальных изменений.

В настоящее время я нахожусь на переходе от должности постдока к более независимой исследовательской должности, и одна из моих личных целей — упростить воспроизведение всех работ, которые я и мои студенты публикуют. Правда, пока мы делаем только маленькие шажки, но, по крайней мере, пытаемся :D

Одним из способов решения проблемы сборки может быть указание необходимой базовой платформы (например, облачного экземпляра), а затем предоставление сценария сборки и сценария выполнения, которые будут извлекать код и необходимые файлы из ваших репозиториев и сторонних источников. Во-вторых, если ваш проект может работать на Vagrant Box, я видел, что это настоятельно рекомендуется некоторыми людьми, которых я знаю, которые беспокоятся об этом больше, чем я.

Недавно (как минимум) появились две платформы, предлагающие веб-пространство для обмена научными данными. Они предоставляют идентификаторы цифровых объектов (DOI) для загруженных наборов данных, которые можно использовать для простой ссылки на данные.

  • Figshare кажется более заметным вариантом. Все данные передаются под лицензией CC0. Существует ограничение в 1 ГБ для личных данных и без ограничений для общедоступных данных.
  • Zenodo является частью европейского исследовательского проекта. Вы можете указать любую лицензию, которую предпочитаете для своего набора данных. В настоящее время у них есть ограничение в 2 ГБ на файл, но вы можете загружать столько файлов, сколько необходимо. Для больших файлов необходимо обращаться к администраторам.
Хотя Figshare не ограничивает хранение общедоступных данных, он имеет ограничение в 250 МБ на файл. Однако я видел, как они отменяли отказ от наборов данных размером 2–4 ГБ.
@dgraziotin Полезно знать! Не стесняйтесь предлагать изменения к моему ответу.