Я только начал читать статьи о распознавании речи и алгоритмах на графах среднего размера (~ 800 000 узлов и 4 400 000 ребер с некоторыми связанными текстовыми данными). Я думаю, что проблема этих работ довольно часто заключается в том, что трудно проверить экспериментальные результаты. Проверить их сложно по двум причинам:
Когда я начинаю писать работы, я хотел бы, чтобы было легче проверять результаты.
Первую проблему легко решить: я могу просто предоставить исходный код (например, на GitHub или в моем личном веб-пространстве).
Вторая проблема, кажется, гораздо сложнее решить. Данные часто довольно большие (распознавание речи: несколько ГБ; графики: около 2 ГБ). Это слишком много, чтобы загружать его на мое личное веб-пространство / GitHub.
Как я могу показать, какие данные я использую в своей статье? (В настоящее время я даю ссылку на источник данных и отмечаю данные, когда загружаю их. Кроме того, я отмечаю дату/версию источника, если это возможно.)
Есть ли проекты, которые пытаются решить эту проблему? (например, предоставив место для важных/интересных проектов, таких как dblp , историю версий и хорошую скорость загрузки)
Обе проблемы, о которых вы говорите, важны и (я думаю) очень проблематичны для дальнейшего развития информатики как реальной науки. Я работаю в сфере услуг / разработки программного обеспечения, и, честно говоря, воспроизводимость результатов очень и очень плоха в моей работе, как и в работе других.
Я прокомментирую оба ваших вопроса, начиная со второго:
Данные либо вообще отсутствуют, либо неясно, какая версия данных использовалась
Во многих случаях это на самом деле самая простая для решения проблема. Я бы предположил, что у вашего отдела есть ИТ-ресурсы (например, веб-пространство отдела), которые вы можете использовать для таких целей. Кроме того, существуют другие, более специализированные репозитории, в которые вы можете загружать данные (например, репозиторий наборов данных машинного обучения UCI или архив трассировок рабочей нагрузки Grid ). Предоставление данных общедоступным на самом деле является проблемой только в том случае, если вам не разрешено делать это из-за коммерческих интересов вашего поставщика данных. Например, у меня есть доступ к реальным следам выполнения бизнес-процессов крупного немецкого логистического провайдера, которые мне не разрешено разглашать. Это явно ограничивает полезность этих следов для меня.
Вторая проблема
Исходный код, который использовался для создания результатов, недоступен (общедоступен)
это довольно сложно на практике. Понятно, что закинуть свой код на Github легко, но вряд ли это решит проблему воспроизводимости. Вам все равно нужно будет включить довольно подробные инструкции по использованию и документацию, чтобы сделать этот код каким-либо полезным для другого исследователя. Это может показаться тривиальным для наивной реализации алгоритма в 1000 строк кода, но, например, мой текущий исследовательский прототип приближается к 25 000 строк кода Java плюс немного XML и Groovy. Просто поместить это в репозиторий недостаточно, если учесть, что статья может считаться воспроизводимой только в том случае, если это возможно сделать в разумные сроки . Дополнительная проблема в моей области заключается в том, что прототипы часто создаются для конкретной среды выполнения. Например, в моем отделе есть небольшой OpenStack.основанное на частном облаке, и многие демонстрационные устройства, которые реально строят наши студенты, работают только в этой среде без кардинальных изменений.
В настоящее время я нахожусь на переходе от должности постдока к более независимой исследовательской должности, и одна из моих личных целей — упростить воспроизведение всех работ, которые я и мои студенты публикуют. Правда, пока мы делаем только маленькие шажки, но, по крайней мере, пытаемся :D
Недавно (как минимум) появились две платформы, предлагающие веб-пространство для обмена научными данными. Они предоставляют идентификаторы цифровых объектов (DOI) для загруженных наборов данных, которые можно использовать для простой ссылки на данные.
пользователь7112
Намей