Последние несколько лет я просматриваю статьи для различных ведущих журналов и конференций. После всего этого опыта я могу сказать вам, что нет никакого способа подтвердить правильность результатов моделирования. Поэтому я обычно делаю замечания по конструкции, процедуре, математическому и аналитическому анализу.
В разделе результатов я могу задать некоторые вопросы, почему то или иное так, но как я могу судить, действительно ли было проведено моделирование или это просто сфабрикованные графики?
Этот вопрос пришел мне в голову, потому что я несколько раз наблюдал, как во время процесса рецензирования рецензент просил включить новые результаты, что, по моему мнению, требовало много кода и усилий для реализации, но автор отвечал в течение 7-10 дней с новыми результатами. и улучшенная статья.
Есть ли у вас основания сомневаться в их правдивости или добросовестности? Являются ли их заявления неправдоподобными или весьма сомнительными, исходя из ваших знаний в этой области? Если в вашей области не принято публиковать код, я не думаю, что рецензент обязательно должен этого требовать, независимо от вашего отношения к публикации кода.
Авторы должны достаточно описать свою методологию, чтобы кто-то другой мог ее воспроизвести; таким образом, они подвергают свою репутацию риску, поскольку, если бы кто-то воспроизвел их подход, они получили бы те же результаты. Фальсификация результатов – очень серьезное обвинение. Существуют некоторые статистические подходы для проверки вероятности того, что данные будут сфабрикованы, но эффективность этого подхода зависит от сложности фабрикации, и этот вопрос лучше подходит для перекрестной проверки.
Если их работа имеет смысл в полевых условиях, в какой-то момент кто-то снова применит их подход. В науке обязательно есть доля веры в то, что люди делают то, что, по их словам, они сделали. Рецензент должен убедиться, что выводы статьи логически следуют из ее результатов, и что их методология описана и обоснована, но ему не нужно проверять или воспроизводить результаты. Как отмечает Дэвид Торнли в комментарии к другому ответу, даже просто запуск кода очень мало говорит вам об этих ключевых факторах, он только сообщает вам, есть ли вопиющая ложь или ошибка.
Вы не можете судить о том, действительно ли была проведена симуляция. Вот почему у нас были такие вещи, как скандал с Шёном — рецензенты этих рукописей тоже не обнаружили мошенничества.
Что вы можете сделать, так это провести «тест на запах». Возможен ли такой подход? Являются ли результаты разумными? Были ли какие-то явные упущения? Если вы не видите явных проблем с симуляцией, этого достаточно: рецензирование происходит после публикации.
После всего этого опыта я могу сказать вам, что нет никакого способа подтвердить правильность результатов моделирования.
Это не обязательно верно. В некоторых случаях очень легко понять, что график не может быть правильным или, по крайней мере, был неправильно истолкован или истолкован. Я обнаружил такую ошибку в одной из своих ранних статей и обнаружил ее в нескольких статьях, которые я просмотрел.
Доказать, что моделирование действительно было выполнено, непросто. Однако структура Open Science предназначена для упрощения проверки результатов как вычислительной, так и экспериментальной работы.
В конце концов, я просматриваю статьи по науке о данных, где основной код имеет решающее значение. Я стал таким парнем во время обзоров, и вот что я прошу:
Все они кажутся мне довольно разумными и решают многие проблемы с качеством кода. Большинство людей с хорошо разработанным кодом поразят их всех только благодаря непрерывным интеграционным тестам в репозитории GitHub, и я думаю, что больше нет необходимости нянчиться с людьми с плохо спроектированным кодом (а это слишком много).
нет возможности подтвердить правильность результатов моделирования.
Моделирование должно быть воспроизводимым, поэтому правильность можно проверить повторным запуском моделирования. Конечно, авторы могут не предоставить необходимый код, но тогда вы можете запросить код в рамках процесса проверки.
Это неудачный артефакт истории и культуры, но академические круги все еще находятся в темных веках в отношении обмена исходным кодом. Серьезные исследователи вычислений часто предоставляют по крайней мере подробный алгоритм, а часто и код. Но дилетанты, которым приходилось учиться программировать «на работе», или люди, очень привязанные к своим путям и традициям, часто пренебрегают этим, и стандарты публикаций редко требуют этого, даже если вы думаете, что любой в здравом уме стал бы это делать. согласитесь, что весь научный код должен быть открытым (или, по крайней мере, доступным для рецензентов), если он заслуживает обсуждения.
К сожалению, устоявшаяся культура не предполагает совместного использования кода, хотя в аналогичном случае физических экспериментов предполагается совместное использование точного процесса вплоть до каждой детали метода и материала, чтобы его могли точно воспроизвести другие исследователи. Я подозреваю, что причина этого в том, что, по большому счету, компьютеры являются относительно новым инструментом науки, а возможность легкого обмена кодом появилась еще позже. Тем не менее, у нас уже более десяти лет есть вездесущий Интернет и хостинг кода с нулевыми усилиями, такой как Github, так что, если вы спросите меня, это чертово время. Но, похоже, инерция все же есть.
Последние несколько лет я просматриваю статьи для различных ведущих журналов и конференций. После всего этого опыта я могу сказать вам, что нет никакого способа подтвердить правильность результатов моделирования. Поэтому я обычно делаю замечания по конструкции, процедуре, математическому и аналитическому анализу.
Это лучшее, что вы можете сделать. Вы также можете попытаться интуитивно предположить, основываясь на приблизительном описании (если таковое имеется) вычислительного подхода, заслуживают ли доверия полученные результаты или нет. Но в конечном счете это невозможно знать наверняка.
Я стараюсь добавить немного ворчания в конце своих обзоров о выпуске исходного кода, хотя я не думаю, что это очень часто воспринимается всерьез.
В разделе результатов я могу задать некоторые вопросы, почему то или иное так, но как я могу судить, действительно ли было проведено моделирование или это просто сфабрикованные графики?
Ну, как вы это формулируете, вы не можете точно знать, сфабрикован ли какой-либо график или результат, если, возможно, вы лично не присутствовали во время проведения исследования. Неизбежно присутствует элемент доверия. Но без исходного кода, даже если вы ему доверяете, вы не можете предложить осмысленную критику некоторых вычислительных частей статьи. Очевидно, что вы все еще можете прокомментировать первоначальные предположения и выбранный подход. Вы можете прокомментировать, как интерпретируются результаты. Но сама реализация недосягаема, пока вы не увидите код. На самом деле, даже предоставления подробного алгоритма было бы недостаточно: реализация авторов может не обязательно точно соответствовать задуманному ими алгоритму.
Этот вопрос пришел мне в голову, потому что я несколько раз наблюдал, как во время процесса рецензирования рецензент просил включить новые результаты, что, по моему мнению, требовало много кода и усилий для реализации, но автор отвечал в течение 7-10 дней с новыми результатами. и улучшенная статья.
Я не думаю, что было бы справедливо подозревать только потому, что они сделали это слишком быстро. Они могут быть просто очень хороши в кодировании. Лично моя скорость разработки очень изменчива: иногда что-то просто щелкает, и я могу писать код очень быстро, иногда простые вещи занимают вечность. Они могут знать о более простых способах реализации изменений, чем вы думаете. Возможно, они уже написали что-то подобное в отдельной работе и смогли быстро перепрофилировать его.
Если бы кто-то фальсифицировал результаты, я думаю, они бы либо ответили сразу, потому что им все равно, либо подождали бы «достаточно долго», чтобы избежать подозрений. Если бы они вообще удосужились подождать, я не думаю, что они поставили бы под угрозу все предприятие, прождав слишком мало.
Чтобы работа моделирования была точно воспроизводимой, необходимо было бы иметь (а) код для моделирования и (б) начальное число для генератора псевдорамдона, используемого для запуска кода. Если код не является собственностью, у авторов нет веских причин скрывать эту информацию от рецензентов, даже если код не будет опубликован как часть статьи. Однако исследования моделирования, которые можно опубликовать, могут быть настолько обширными, что даже энергичный скептически настроенный рецензент не сможет повторить моделирование.
В какой-то степени многие симуляционные исследования могут быть самопроверочными. Когда это возможно, рецензенты должны настаивать на осуществимой внутренней верификации. На нетехническом языке вот несколько примеров того, что я имею в виду.
(1) Часто моделирование дает несколько результатов, некоторые из которых являются новыми, а некоторые легко получаются или общеизвестны, не прибегая к моделированию. Тогда, по крайней мере, рецензент может подтвердить, что последние результаты верны. Примерно так же моделирование может уточнить результаты, которые можно аппроксимировать только с помощью вероятностных или других математических вычислений. Затем рецензент может подтвердить, что результаты хотя бы приблизительно верны.
(2) Очень часто важной частью исследования моделирования может быть получение приблизительных границ, в пределах которых, вероятно (вероятность 95 %), лежат результаты моделирования. Если представляется возможным получить такие границы, а в рецензируемой статье они отсутствуют, то рецензент должен запросить их или объяснить их отсутствие.
Приложение: Это тривиальный пример, иллюстрирующий некоторые концепции в (1) и (2). Предположим, что пять игральных костей загружены так, что грани с 1 по 6 имеют соответствующие вероятности (1/12, 1/6, 1/6, 1/6, 1/6, 1/4) выпадения. Если выпали все пять, какова вероятность того, что сумма будет не менее 25? Моделирование в статистическом программном обеспечении R миллиона таких экспериментов с 5 кубиками показывает, что доля результатов с общим числом 25 или более составила 0,092903. Можно ли верить этому результату? Ответ: да, примерно в трех местах.
Смоделированный 95-процентный предел погрешности моделирования находится «в пределах 0,0006». Легко видеть, что средняя сумма равна 19,583, а соответствующий смоделированный результат равен 19,580. Разумное двухзначное нормальное приближение составляет 0,0922. Этот конкретный пример богат подтверждающими возможностями, но это лишь некоторые из них.
Примечание. Другая проблема заключается в том, что при использовании различного математического программного обеспечения эта задача может быть точно решена с помощью передовых комбинаторных методов. Один точный метод основан на этой странице , за исключением того, что наши кости предвзяты, и результаты не равновероятны. Сомнительно, следует ли публиковать результаты моделирования, если существует приемлемое точное решение. Одной из задач рецензента является выявление статей, которые не следует публиковать по этой причине.
Обычно воспроизводятся известные примеры, чтобы убедиться, что симуляция делает то, что заявлено. Затем дальнейшее моделирование показывает новые результаты, которые не могут быть воспроизведены другой группой, потому что они не использовали описанный метод или подход, описанный в статье/докладе.
Из-за краткости первая часть часто опускается в журнальных статьях и выступлениях на конференциях. Кандидатские диссертации содержат их чаще.
Одна из моих первых публикаций, она не содержит никакого прорыва, только цитируется из других, чтобы показать, что они соответствуют моим результатам.
Если бы я рецензировал статью, в значительной степени основанную на каком-то вычислительном анализе, но не предоставляющую код, я бы отклонил эту статью, если авторы не могли указать вескую причину: даже если бы они использовали проприетарные библиотеки, я бы d хотят увидеть вызовы, которые они сделали в эти библиотеки. Этого требуют многие журналы в моей области (геномика/биоинформатика).
Тем не менее, если симуляция работала в течение 2 месяцев на 10 000 ядер (или даже неделю на 200 ядрах), у меня не так много шансов воспроизвести даже с кодом. И у меня почти наверняка нет ни времени, ни денег, ни опыта, чтобы повторять лабораторные эксперименты в любой статье, которую я читал.
Я не думаю, что предоставление кода, хотя и является хорошей практикой, является защитой от нечестности. В конце концов, защиты от прямого мошенничества очень мало, и процесс проверки предназначен не для этой цели.
Мохакик
Дэвид Торнли
ФАПЧ
Боевой
Андрей
Крис Х
Мохакик
Тизоид
Эньон
верно