Двойная слепая экспертная оценка, когда в документе цитируется авторский репозиторий GitHub для кода

Я и мой соавтор написали статью, и проект включал создание (небольшой) библиотеки программного обеспечения. Частью новизны статьи является вывод кода, представляющего собой цифровой объект, не предназначенный для ручного манипулирования. Код (с открытым исходным кодом) в идеале также будет полезен для других. Один журнал, в который я собирался отправить это, требует двойного слепого рецензирования, но репозиторий GitHub, где хранится код, упоминаемый в документе, идентифицирует одного из нас, просто взглянув на имя пользователя в URL-адресе. Мы, конечно, можем скрыть свою личность в документе как авторов, но действительно должны ссылаться на репозиторий кода.

Мне раньше не приходилось делать двойной слепой обзор, поэтому не ясно, что нам делать. Мой соавтор столкнется с еще большим количеством проблем такого рода, поскольку они будут продолжать исследования с аналогичным сочетанием кода и бумаги в качестве результата.

Можем ли мы что-нибудь сделать, хотя бы в качестве первой попытки развеять беспокойство журналов?

Вы подозреваете , что это будет проблемой, или это уже проблема (например, редакторы отклонили вашу статью)? В первом случае предлагаю не волноваться. У меня сложилось впечатление, что двойное слепое рецензирование основано на «кодексе чести»; завеса авторской анонимности легко срывается, и редакторы прекрасно об этом знают. Смысл двойного слепого метода заключается в том, чтобы не втирать личности авторов в лица рецензентов, а не полностью исключать возможность того, что они их обнаружат.
@darijgrinberg Написание «Наш код доступен на GitHub: https://github.com/AuthorName» похоже на то, что втирает личности авторов в лица рецензентов , отмечая, что репозиторий GitHub… идентифицирует одного из нас [по] имени пользователя в URL-адресе .
@ user2768: Обычно рецензенты не ищут такие цитаты, пока не прочитают большую часть статьи. Тем не менее, сокращатели ссылок могут помочь (только обязательно удалите их перед окончательной версией).
@darijgrinberg Сокращатели ссылок никогда не должны включаться в представленную рукопись, потому что они позволяют автору отслеживать, кто получает доступ к связанному ресурсу. Если автор увидит в своих логах, что кто-то из сети Технического университета Сикинии перешел по его ссылке, то легко догадаться, кто является рефери.
@FedericoPoloni: Хороший вопрос!! Лучшее решение: Zenodo размещает снимки репозиториев GitHub, и к ним можно получить доступ с помощью идентификаторов, которые не включают имя автора (по крайней мере, не явно); так что это может быть правильным решением (в том числе и из соображений долгосрочного сохранения).
@Abigail: смотрите мой комментарий к ОП. Сделать ваше авторство полностью неидентифицируемым граничит с невозможным (в большинстве случаев ваши рецензенты будут принадлежать к 50 людям, изучающим вашу маленькую подтему, и они смогут сделать обоснованные предположения о том, кто вы, основываясь на ваших видимых данных). интересы, предыстория и стиль письма); лучшее, на что вы можете надеяться, это то, что судьи не столкнутся с этим, если они не попытаются это сделать преднамеренно.
Я нахожу странным, что Журнал требует двойного слепого рецензирования, хотя якобы не допускает некоторых временных замен цитат, чтобы гарантировать, что он действительно слепой.
Интересный вариант: репозиторий является общедоступным с первого дня. К тому времени, когда статья будет окончательно отправлена, программное обеспечение может быть уже широко известно в данной области, и двойное слепое рецензирование невозможно. Я часто вижу это в биоинформатике.
Для меня комментарий @darijgrinberg — лучший ответ, и я бы проголосовал за него, если бы он появился как таковой. Предоставление отдельного снимка не работает: если бы я просматривал код в репозитории, я бы смотрел не столько на сам код, сколько на историю. Кроме того, к тому времени, когда читатель наткнется на URI github в документе, он, вероятно, уже пришел к некоторым предварительным выводам «принять/пересмотреть/отклонить». Если вам случится оказаться в области с такой сильной враждебностью, что ослепление автора является жизненно важным, то вам, возможно, следует поговорить с редактором о том, каких рецензентов вы хотели бы, чтобы они избегали.
@NormanGray какой именно комментарий? Я думаю, что это скорее мера по уменьшению предвзятости, чем мера по защите авторов, учитывая рассматриваемый журнал.
@DavidRoberts А, хорошая мысль! Это был «кодекс чести», предполагающий, что цель ослепления состоит в том, чтобы снизить вероятность непреднамеренной идентификации автора (по какой-либо причине), а не стереть эту возможность посредством действий, которые создают трения, но на самом деле не работают в полной мере — громоздкие решения. к чему-то, что не может быть серьезной проблемой. Я не согласен с этим на 100%, но я думаю, что это ближе к реальной сути проблемы, чем существующие технические ответы.

Ответы (5)

Цензурируйте имя репозитория и предоставьте рецензентам код в виде вспомогательного файла.

Если рецензенты захотят, то эту обфускацию легко обойти: взять любую нетривиальную часть кода (достаточно одного выразительного названия функции или комментария) и закинуть в гугл.
@NichtJens в эпоху arxiv это часто работает и с названиями статей, и это нормально. Авторы просто обязаны позволить рецензенту действовать двойным слепым методом.
Хорошо, я понимаю, что вы имеете в виду. Эквивалентом цитируемого репозитория было бы упоминание препринта в представлении (например, «Препринт этой статьи доступен как arxiv: 1234.12345.»).
@NichtJens еще хуже, потому что номер arXiv не включает имя автора.
FWIW, я регулярно использую это, чтобы создать копию репозитория Git без какой-либо истории в ../repo-name-copy из этого репо: git -C "$(git rev-parse --show-toplevel)" checkout-index --all --prefix="../$(basename "$(git rev-parse --show-toplevel)")-copy/". Вы также можете захотеть grep -r -e 'Author Name' -e 'Other Author Name'в результирующем каталоге и сделать что-то вроде sed -i 's/Jane Doe/Author 1/g;s/Joe Bloggs/Author 2/g' PATHзамены имен.
@ l0b0 Обычно я бы использовал git archive HEAD > filename.zipвместо вашей сложной команды --- в чем преимущество этого метода?
@FedericoPoloni git rev-parse --show-toplevelпредоставляет вам каталог верхнего уровня репозитория, поэтому эта команда будет работать при запуске в любом месте репозитория. Помимо этого, я думаю, это зависит от того, хотите ли вы копию структуры каталогов или архив.
@Federico Лично я просто извлекаю репозиторий в том виде, в котором я хочу, а затем удаляю папку .git, но приятно знать, что для этого тоже есть команда;) (например, как архив работает с подмодулями?)
@Voo Понятия не имею --- Я сам не гуру git.
  • Сделайте копию репозитория доступной по анонимному URL-адресу, например, используя Google Диск с новой учетной записью.

  • Отправьте копию репозитория вместе с вашей рукописью (если это разрешено журналом) или отправьте репозиторий редактору по электронной почте.

Если рецензенты захотят, то эту обфускацию легко обойти: взять любую нетривиальную часть кода (достаточно одного выразительного названия функции или комментария) и закинуть в гугл.
@NichtJens Точно так же рефери может бросить одно или два предложения (из статьи) в Google и найти препринт. Как отмечается в другом комментарии, завеса анонимности автора легко срывается, и редакторы прекрасно об этом знают .
Точно! Не будет ли это проблемой и для двойного слепого обзора? РЕДАКТИРОВАТЬ: Судя по всему, это: statmodeling.stat.columbia.edu/2018/01/15/…
@NichtJens Смысл двойного слепого рецензирования не в том, чтобы сделать невозможным удаление ослепления, а в том, чтобы сделать это более трудным без каких-либо усилий со стороны рецензентов или авторов. Ни одна система не идеальна, и система должна работать с минимальным допущением этического поведения со стороны рецензентов, в том числе не предпринимать никаких усилий, чтобы преднамеренно выяснить, кто авторы.
Хорошо, я понимаю, что вы имеете в виду. Спасибо за разъяснение.
@NichtJens как рецензент, система больше предназначена для того, чтобы я мог избежать непреднамеренной предвзятости - я не буду пытаться искать авторов, потому что мне все равно, увижу ли я имя, которое я узнаю на верхней части бумаги или в URL-адресе github, я ничего не могу сделать, чтобы развидеть его.
@Abigail Ну, журнал изменений можно легко запутать ... Это уже было предложено здесь.

Я сейчас буквально в той же ситуации, что и вы, и несколько дней назад наткнулся на этот репозиторий/сервис на GitHub: . Поскольку ваш код и имена уже общедоступны, это обеспечивает только базовый уровень запутывания. Однако, пока рецензенты честны и не пытаются активно узнать имена авторов, это должно уберечь их от случайного обнаружения вас.

Кроме того, наиболее эффективный подход — не публиковать его публично до тех пор, пока не будет проведена проверка, а вместо этого предоставлять код/документацию/что-либо в частном порядке через журнал. Меня беспокоит этот подход, поскольку он зависит от удаления любых ассоциаций с именами из материала. Так что же произойдет, если рецензент отклонит рукопись, а затем опубликует код или его части как свои собственные перед вами? Отсутствие общедоступной записи с вашей стороны может затруднить решение проблемы.

В конечном счете, вы мало что можете сделать с рецензентами, которые намеренно пытаются обойти анонимность. Даже без вашего имени где бы то ни было, если вы публиковались раньше, кто-то потенциально может получить довольно хорошее представление о том, кто вы, по содержанию и шаблонам в самой рукописи.

«самый эффективный подход — не публиковать его до тех пор, пока не будет проведена проверка», <— слишком поздно
@DavidRoberts Я видел. Я включил этот второй абзац больше для тех, кто может наткнуться на этот вопрос в будущем.
Если авторам предоставляется, хотя и отдельными средствами, доступ к анонимной копии кода, почему следует также избегать публичного выпуска кода?
@CurtJ.Sampson Если рецензентам необходимо выполнить поиск термина или концепции в статье в Интернете, документация в репозитории может содержать результаты поиска, особенно если это специализированная область исследований. В качестве альтернативы рецензент может захотеть посмотреть, какая еще работа была проделана, и убедиться, что статья правильно цитирует ее. Наконец, рецензент может искать сам код, чтобы убедиться, что кто-то еще не опубликовал код (чтобы убедиться, что это оригинальная работа, а не плагиат кода/нарушение авторских прав).
Наличие как записи о представлении, так и помещения кода в общедоступный репозиторий git (даже если код еще не общедоступен ) идеально сохраняет время авторов. В git можно произвольно устанавливать временные метки, но общедоступный репозиторий должен иметь собственный учет репозитория. Кроме того, можно опубликовать только последние или серию хэшей коммитов или другую контрольную сумму кодовой базы.

Самое простое, что можно сделать (к моему удивлению, это не было предложено раньше, и это довольно распространено) — создать анонимную учетную запись GitHub и продублировать туда свой код (загрузить код в один коммит, не дублировать сам репозиторий). поскольку вы не хотите, чтобы ваше настоящее имя пользователя присутствовало в истории коммитов).

Существует Anonymous GitHub, прокси-сервер для поддержки анонимного просмотра репозиториев Github:

https://anonymous.4open.science/

Использование:

  1. Заполните URL-адрес репозитория Github.
  2. Заполните список терминов, которые будут анонимизированы. Анонимизация контента осуществляется путем замены всех вхождений слов в списке на «XXX». Список слов обычно содержит название учреждения, имена авторов, логины и т. д.
  3. Определите, хотите ли вы указать дату истечения срока действия для вашего анонимного репозитория. Вы можете сохранить его навсегда, удалить репозиторий после определенной даты или перенаправить пользователя в репозиторий GitHub.

В результате создается уникальный URL с содержимым вашего репозитория, например, http://anonymous.4open.science/repository/840c8c57-3c32-451e-bf12-0e20be300389/ .