Есть ли доказательства того, что исследовательское программное обеспечение с открытым исходным кодом обеспечивает более широкое применение методов?

В последние годы наблюдается стремление сделать науку более открытой. Это включает в себя создание программного обеспечения, используемого для проведения исследований, с открытым исходным кодом. Главный аргумент в пользу этой идеи заключается в том, что исследование должно быть воспроизводимым, что было рассмотрено в других вопросах на этом сайте.

Меня больше интересует «воздействие», которое это производит. В частности, есть ли доказательства того, что публикация программного обеспечения вместе с исследовательскими статьями означает, что больше людей используют методы, описанные в статье?

Меня особенно интересуют статьи по прикладной математике, но также и в более общем плане.

Возможно, стоит отметить, что воздействие, которое вы, кажется, описываете (люди, использующие представленный метод во всем, что они делают, т. е. применение результатов исследования), не является тем воздействием, к которому вы стремитесь, исходя из вашего описания в предыдущем абзаце (люди, повторно проводящие исследование). эксперимент для проверки утверждений, сделанных в статье, т. е. проверка результатов исследования).

Ответы (4)

Вы спрашиваете: «В частности, есть ли доказательства того, что публикация программного обеспечения вместе с исследовательскими статьями означает, что больше людей используют методы, описанные в статье?»

В настоящее время мне неизвестны какие-либо крупномасштабные эмпирические исследования, которые оценивали бы это для программного обеспечения [1], однако есть неофициальные данные и связанные исследования, посвященные влиянию открытых данных.

Одно связанное с этим неподтвержденное свидетельство было получено из небольшого опроса, который я провел в 2013 году в поисках людей, которые были «захвачены» в результате открытой публикации своего кода (т. е. кто-то другой опубликовал статью с использованием этого программного обеспечения, чтобы получить те же научные результаты). перед автором программы). В то время как было очень мало примеров, когда людей привлекали, было гораздо больше примеров исследователей, которые получили новое сотрудничество, новые цитирования и новое финансирование в результате открытой публикации своего кода. Многие говорили, что это произошло потому, что у других было больше возможностей опробовать методы, потому что код был доступен.

Более убедительно то, что было проведено несколько хороших исследований, посвященных влиянию на цитируемость (прокси для упомянутого вами воздействия) открытого доступа к данным [2-6]. Многие причины преимущества цитирования данных, обсуждаемые в [7], в качественном отношении верны и для программного обеспечения [8-9].

Наконец, в области прикладной математики вам могут быть интересны некоторые результаты семинара ICERM по воспроизводимости вычислительной и экспериментальной математики [10], а также некоторые публикации участников.


[1] Одна из причин этого заключается в том, что до самого недавнего времени было трудно провести такое исследование — было трудно связать программное обеспечение с публикацией, мало авторов публиковали код, и было трудно найти журналы для сбора данных. оценить воздействие. Это меняется, и я ожидаю, что исследования начнут появляться на основе таких инструментов, как ContentMine и ScienceToolbox.

[2] Piwowar, Day, Fridsma (2007). Обмен подробными исследовательскими данными связан с повышением уровня цитирования. ПЛОС ОДИН.

[3] Гледич Н.П., Метелиц С., Странд Х. 2003. Размещение ваших данных: будете ли вы популярны или станете знаменитыми? Перспективы международных исследований 4 (1): 89-97

[4] Пьента А.М., Альтер Г.К., Лайл Дж.А. 2010. Непреходящая ценность исследований в области социальных наук: использование и повторное использование данных первичных исследований. Семинар «Организация, экономика и политика научных исследований»

[5] Хеннекен Э.А., Аккомацци А. 2011. Связывание с данными – влияние на уровень цитирования в астрономии.

[6] Дорч Б. 2012. О преимуществе цитирования ссылок на данные. отпечатки.

[7] Piwowar H, Vision T. 2013. Повторное использование данных и преимущество цитирования открытых данных. Пир Дж. ПабМед 24109559

[8] Howison J, Herbsleb, J. 2013. Стимулы и интеграция в научном производстве программного обеспечения. СКВ 2013.

[9] Howison J, Bullard J. Как программное обеспечение представлено в научной литературе? Препринт доступен по адресу https://github.com/jameshowison/softcite/blob/master/paper/HowisonBullard-SoftwareCitation-WorkingPaper.pdf?raw=true .

[10] «Установка воспроизводимого значения по умолчанию: воспроизводимость в вычислительной и экспериментальной математике», отчет семинара ICERM, совместно с Д. Бейли, Дж. Борвейном, Р. Левеком, В. Райдером и В. Штейном.

Спасибо за подробный ответ, Нил. Я мог бы добавить к вашим ссылкам статью Донохо «Как стать высоко цитируемым автором в области математических наук»: in-cites.com/scientists/DrDavidDonoho.html . Он делает довольно конкретную ссылку на публикацию программного обеспечения с открытым исходным кодом как на средство улучшения воздействия.
«В то время как было очень мало примеров того, как людей обворовывали»... Я не могу не задаться вопросом, какие это могут быть примеры.
Спасибо, Арон - я помню, как он что-то говорил об этом в одном из своих выступлений, но не знал об этой конкретной ссылке. И, Фахим, есть два примера, которые я могу подтвердить: один был в области оптимизации коммуникаций в распределенных вычислениях, другой — в области управления приборами в нейробиологии (в этом случае использование программного обеспечения было признано другой группой, но автор был избит до крупной исследовательской работы)
Хороший ответ и интересные ссылки (+1).

Journal of Statistical Software — один из немногих журналов, публикующих программное обеспечение. В настоящее время он имеет один из самых высоких импакт-факторов среди всех статистических журналов. Это можно рассматривать как свидетельство того, что публикация программного обеспечения вместе с исследовательскими работами приводит к более высокому эффекту и, в частности, к большему количеству людей, использующих методы, описанные в статье.

«В настоящее время у него один из самых высоких импакт-факторов среди всех статистических журналов». xkcd.com/285 :-)
Я веду список журналов, которые публикуют программное обеспечение: software.ac.uk/resources/guides/… — за три года, что я этим занимаюсь, количество журналов выросло с горстки до более чем 70.
Чтобы быть точным, JSS не публикует программное обеспечение как таковое, а только соответствующие исследовательские работы. То же самое относится и к превосходному списку @NeilChueHong. Но я понимаю вас обоих :-). +1 за упоминание JSS, на который я ссылаюсь довольно часто.

Ваш вопрос можно интерпретировать по-разному, и я постараюсь ответить на все из них.

  1. Есть ли доказательства того, что публикация программного обеспечения вместе с исследовательскими статьями означает, что больше людей используют методы, описанные в статье?

Это невероятно очевидно в программном обеспечении для биоинформатики. Мои навыки работы с Google в настоящее время не помогают мне, поэтому я не могу найти полную научную статью по этому вопросу, но, основываясь на личном опыте и сети как в моей узкой (РНК-секвенация), так и в широкой (геномика) области, если исследование описывает алгоритм, который будет цитироваться и использоваться только людьми, разрабатывающими алгоритмы для решения той же или похожей проблемы. Если исследование предоставляет полезное программное обеспечение: автономный пакет, пакет python, jar, библиотеку R — что-то, это гораздо чаще будет цитироваться и использоваться (особенно если оно (а) работает и (б) не имеет каких-либо нелепых зависимостей (филоКСФ, я смотрю на вас)).

В настоящий момент у меня нет времени, чтобы провести этот анализ самостоятельно, но простой парсинг в публикациях + анализ текста в нескольких выпусках журнала «Биоинформатика» должны позволить количественно подтвердить это утверждение.

  1. Главный аргумент в пользу этой идеи заключается в том, что исследование должно быть воспроизводимым, что было рассмотрено в других вопросах на этом сайте.

Для многих работ по прикладной биоинформатике, включая мою собственную, мы используем инструменты других людей для проведения анализа и записи результатов. Код, который мы обычно используем, является «хакерским» и на самом деле не «программным», а представляет собой сценарий, который мы запустили, который дал нам наши результаты с использованием наших конкретных данных и конфигурации файловой системы/сервера. Этот код, к сожалению, обычно не публикуется, и на данный момент вы должны написать подробный отчет о том, что вы сделали, в разделе методов вашей статьи. К сожалению, слишком часто люди, которые пишут статью (т.е. 1-й автор), не являются биоинформатиками, и если анализы составляли небольшую часть работы, 1-й автор (обычно биолог) пытается описать/обобщить то, что сделал биоинформатик, основываясь на его/ее ограниченном понимании (а биоинформатик недостаточно осведомлен о статье, чтобы заботиться о ней, потому что он/она является 10-м автором) – и если вы не наймите рецензента, подкованного в биоинформатике, статья опубликована с тарабарщиной в методах, и нет возможности воспроизвести анализ. Я хотел бы получать доллар каждый раз, когда я пытался понять/воспроизвести чьи-то методы, но не смог этого сделать, потому что они были в журнале «Биология» и, следовательно, не были описаны должным образом.

В будущем, я думаю, все больше и больше журналов начнут запрашивать код, но с оговоркой, что это не будет код, который вы можете загрузить и запустить — на своих данных или на ваших (данные слишком велики, и написание кода, который будет работать со всеми возможными кластерами - это слишком много усилий) - так что это будет больше как дополнительная вещь, из которой я могу разъяснить ваши точные методы, а не повторять ваш полный анализ.

3. Это включает в себя предоставление программного обеспечения, используемого для проведения исследований, с открытым исходным кодом. Некоторые из лучших выравнивателей для данных секвенирования не имеют открытого исходного кода. Публичный поиск по слову novoalign (собственности) дает 15 совпадений, 1200 записей Google. BWA (открытый исходный код) 142 опубликованных, 9960 гугл-ученых. Эти результаты говорят сами за себя.

Подробные сводки обычно бесполезны, даже если они написаны людьми, которые понимают, что происходит, потому что они не могут включить все детали, необходимые для повторной реализации кода. Кроме того, необходимость переделывать чужой код для воспроизведения подпадает под категорию жестокого и необычного наказания.

Если размер выборки 1 считается доказательством, то да, наличие программного обеспечения с открытым исходным кодом, безусловно, может оказать значительное влияние.

Тем не менее, есть несколько важных моментов, на которые следует обратить внимание, прежде чем потенциальное воздействие станет реальным воздействием. Во-первых, правильное программное обеспечение — это не типичный академический код, собранный вместе с несколькими комментариями для решения конкретной проблемы. Программное обеспечение должно иметь пользовательский интерфейс, руководство пользователя, быть надежным и обеспечивать значительную функциональность. В моем случае я включил несколько методов моделирования в одну часть программного обеспечения и написал обзорную статью с подробным описанием их реализации с примерами. С тех пор, как в прошлом году исходный код был открыт, многие исследователи начали использовать программное обеспечение, что, вероятно, приведет к цитированию статьи. Если вы можете разработать широко используемый пакет программного обеспечения, то любые методы, которые вы реализуете, (слегка) более вероятно будут использоваться, чем те, которые вы не используете.

Я бы сказал, что если вы хотите, чтобы ваш метод использовался или был реализован, включение примера кода обеспечивает гораздо более низкий барьер для входа, например, популярные генераторы случайных чисел всегда включали исходный код. Тем не менее, любой код, который вы пишете, должен быть четко лицензирован и, в идеале, максимально разрешен, например, BSD, чтобы его можно было свободно использовать в коммерческом и некоммерческом программном обеспечении.