Двойная слепая экспертная оценка, когда в документе цитируется авторский репозиторий GitHub для кода

Question

Двойная слепая экспертная оценка, когда в документе цитируется авторский репозиторий GitHub для кода

Дэвид Робертс

Я и мой соавтор написали статью, и проект включал создание (небольшой) библиотеки программного обеспечения. Частью новизны статьи является вывод кода, представляющего собой цифровой объект, не предназначенный для ручного манипулирования. Код (с открытым исходным кодом) в идеале также будет полезен для других. Один журнал, в который я собирался отправить это, требует двойного слепого рецензирования, но репозиторий GitHub, где хранится код, упоминаемый в документе, идентифицирует одного из нас, просто взглянув на имя пользователя в URL-адресе. Мы, конечно, можем скрыть свою личность в документе как авторов, но действительно должны ссылаться на репозиторий кода.

Мне раньше не приходилось делать двойной слепой обзор, поэтому не ясно, что нам делать. Мой соавтор столкнется с еще большим количеством проблем такого рода, поскольку они будут продолжать исследования с аналогичным сочетанием кода и бумаги в качестве результата.

Можем ли мы что-нибудь сделать, хотя бы в качестве первой попытки развеять беспокойство журналов?

Дарий Гринберг

Вы подозреваете , что это будет проблемой, или это уже проблема (например, редакторы отклонили вашу статью)? В первом случае предлагаю не волноваться. У меня сложилось впечатление, что двойное слепое рецензирование основано на «кодексе чести»; завеса авторской анонимности легко срывается, и редакторы прекрасно об этом знают. Смысл двойного слепого метода заключается в том, чтобы не втирать личности авторов в лица рецензентов, а не полностью исключать возможность того, что они их обнаружат.

пользователь2768

@darijgrinberg Написание «Наш код доступен на GitHub: https://github.com/AuthorName» похоже на то, что втирает личности авторов в лица рецензентов , отмечая, что репозиторий GitHub… идентифицирует одного из нас [по] имени пользователя в URL-адресе .

Дарий Гринберг

@ user2768: Обычно рецензенты не ищут такие цитаты, пока не прочитают большую часть статьи. Тем не менее, сокращатели ссылок могут помочь (только обязательно удалите их перед окончательной версией).

Федерико Полони

@darijgrinberg Сокращатели ссылок никогда не должны включаться в представленную рукопись, потому что они позволяют автору отслеживать, кто получает доступ к связанному ресурсу. Если автор увидит в своих логах, что кто-то из сети Технического университета Сикинии перешел по его ссылке, то легко догадаться, кто является рефери.

Дарий Гринберг

@FedericoPoloni: Хороший вопрос!! Лучшее решение: Zenodo размещает снимки репозиториев GitHub, и к ним можно получить доступ с помощью идентификаторов, которые не включают имя автора (по крайней мере, не явно); так что это может быть правильным решением (в том числе и из соображений долгосрочного сохранения).

Эньон

Релевантно (и, возможно, дубликат?): Как анонимизировать самоцитирование репозитория исходного кода в двойном слепом рецензировании IEEE?

Дарий Гринберг

@Abigail: смотрите мой комментарий к ОП. Сделать ваше авторство полностью неидентифицируемым граничит с невозможным (в большинстве случаев ваши рецензенты будут принадлежать к 50 людям, изучающим вашу маленькую подтему, и они смогут сделать обоснованные предположения о том, кто вы, основываясь на ваших видимых данных). интересы, предыстория и стиль письма); лучшее, на что вы можете надеяться, это то, что судьи не столкнутся с этим, если они не попытаются это сделать преднамеренно.

Дэн М.

Я нахожу странным, что Журнал требует двойного слепого рецензирования, хотя якобы не допускает некоторых временных замен цитат, чтобы гарантировать, что он действительно слепой.

Джуни Сирен

Интересный вариант: репозиторий является общедоступным с первого дня. К тому времени, когда статья будет окончательно отправлена, программное обеспечение может быть уже широко известно в данной области, и двойное слепое рецензирование невозможно. Я часто вижу это в биоинформатике.

Норман Грей

Для меня комментарий @darijgrinberg — лучший ответ, и я бы проголосовал за него, если бы он появился как таковой. Предоставление отдельного снимка не работает: если бы я просматривал код в репозитории, я бы смотрел не столько на сам код, сколько на историю. Кроме того, к тому времени, когда читатель наткнется на URI github в документе, он, вероятно, уже пришел к некоторым предварительным выводам «принять/пересмотреть/отклонить». Если вам случится оказаться в области с такой сильной враждебностью, что ослепление автора является жизненно важным, то вам, возможно, следует поговорить с редактором о том, каких рецензентов вы хотели бы, чтобы они избегали.

Дэвид Робертс

@NormanGray какой именно комментарий? Я думаю, что это скорее мера по уменьшению предвзятости, чем мера по защите авторов, учитывая рассматриваемый журнал.

Норман Грей

@DavidRoberts А, хорошая мысль! Это был «кодекс чести», предполагающий, что цель ослепления состоит в том, чтобы снизить вероятность непреднамеренной идентификации автора (по какой-либо причине), а не стереть эту возможность посредством действий, которые создают трения, но на самом деле не работают в полной мере — громоздкие решения. к чему-то, что не может быть серьезной проблемой. Я не согласен с этим на 100%, но я думаю, что это ближе к реальной сути проблемы, чем существующие технические ответы.

Ответы (5)

Двойная слепая экспертная оценка, когда в документе цитируется авторский репозиторий GitHub для кода

Вы подозреваете , что это будет проблемой, или это уже проблема (например, редакторы отклонили вашу статью)? В первом случае предлагаю не волноваться. У меня сложилось впечатление, что двойное слепое рецензирование основано на «кодексе чести»; завеса авторской анонимности легко срывается, и редакторы прекрасно об этом знают. Смысл двойного слепого метода заключается в том, чтобы не втирать личности авторов в лица рецензентов, а не полностью исключать возможность того, что они их обнаружат.
@darijgrinberg Написание «Наш код доступен на GitHub: https://github.com/AuthorName» похоже на то, что втирает личности авторов в лица рецензентов , отмечая, что репозиторий GitHub… идентифицирует одного из нас [по] имени пользователя в URL-адресе .
@ user2768: Обычно рецензенты не ищут такие цитаты, пока не прочитают большую часть статьи. Тем не менее, сокращатели ссылок могут помочь (только обязательно удалите их перед окончательной версией).
@darijgrinberg Сокращатели ссылок никогда не должны включаться в представленную рукопись, потому что они позволяют автору отслеживать, кто получает доступ к связанному ресурсу. Если автор увидит в своих логах, что кто-то из сети Технического университета Сикинии перешел по его ссылке, то легко догадаться, кто является рефери.
@FedericoPoloni: Хороший вопрос!! Лучшее решение: Zenodo размещает снимки репозиториев GitHub, и к ним можно получить доступ с помощью идентификаторов, которые не включают имя автора (по крайней мере, не явно); так что это может быть правильным решением (в том числе и из соображений долгосрочного сохранения).
Релевантно (и, возможно, дубликат?): Как анонимизировать самоцитирование репозитория исходного кода в двойном слепом рецензировании IEEE?
@Abigail: смотрите мой комментарий к ОП. Сделать ваше авторство полностью неидентифицируемым граничит с невозможным (в большинстве случаев ваши рецензенты будут принадлежать к 50 людям, изучающим вашу маленькую подтему, и они смогут сделать обоснованные предположения о том, кто вы, основываясь на ваших видимых данных). интересы, предыстория и стиль письма); лучшее, на что вы можете надеяться, это то, что судьи не столкнутся с этим, если они не попытаются это сделать преднамеренно.
Я нахожу странным, что Журнал требует двойного слепого рецензирования, хотя якобы не допускает некоторых временных замен цитат, чтобы гарантировать, что он действительно слепой.
Интересный вариант: репозиторий является общедоступным с первого дня. К тому времени, когда статья будет окончательно отправлена, программное обеспечение может быть уже широко известно в данной области, и двойное слепое рецензирование невозможно. Я часто вижу это в биоинформатике.
Для меня комментарий @darijgrinberg — лучший ответ, и я бы проголосовал за него, если бы он появился как таковой. Предоставление отдельного снимка не работает: если бы я просматривал код в репозитории, я бы смотрел не столько на сам код, сколько на историю. Кроме того, к тому времени, когда читатель наткнется на URI github в документе, он, вероятно, уже пришел к некоторым предварительным выводам «принять/пересмотреть/отклонить». Если вам случится оказаться в области с такой сильной враждебностью, что ослепление автора является жизненно важным, то вам, возможно, следует поговорить с редактором о том, каких рецензентов вы хотели бы, чтобы они избегали.
@NormanGray какой именно комментарий? Я думаю, что это скорее мера по уменьшению предвзятости, чем мера по защите авторов, учитывая рассматриваемый журнал.
@DavidRoberts А, хорошая мысль! Это был «кодекс чести», предполагающий, что цель ослепления состоит в том, чтобы снизить вероятность непреднамеренной идентификации автора (по какой-либо причине), а не стереть эту возможность посредством действий, которые создают трения, но на самом деле не работают в полной мере — громоздкие решения. к чему-то, что не может быть серьезной проблемой. Я не согласен с этим на 100%, но я думаю, что это ближе к реальной сути проблемы, чем существующие технические ответы.

Федерико Полони · Answer 1

Федерико Полони

Цензурируйте имя репозитория и предоставьте рецензентам код в виде вспомогательного файла.

НихтЙенс

Если рецензенты захотят, то эту обфускацию легко обойти: взять любую нетривиальную часть кода (достаточно одного выразительного названия функции или комментария) и закинуть в гугл.

усул

@NichtJens в эпоху arxiv это часто работает и с названиями статей, и это нормально. Авторы просто обязаны позволить рецензенту действовать двойным слепым методом.

НихтЙенс

Хорошо, я понимаю, что вы имеете в виду. Эквивалентом цитируемого репозитория было бы упоминание препринта в представлении (например, «Препринт этой статьи доступен как arxiv: 1234.12345.»).

Дэвид Робертс

@NichtJens еще хуже, потому что номер arXiv не включает имя автора.

l0b0

FWIW, я регулярно использую это, чтобы создать копию репозитория Git без какой-либо истории в ../repo-name-copy из этого репо:

git -C "$(git rev-parse --show-toplevel)" checkout-index --all --prefix="../$(basename "$(git rev-parse --show-toplevel)")-copy/"

. Вы также можете захотеть grep -r -e 'Author Name' -e 'Other Author Name'в результирующем каталоге и сделать что-то вроде sed -i 's/Jane Doe/Author 1/g;s/Joe Bloggs/Author 2/g' PATHзамены имен.

Федерико Полони

@ l0b0 Обычно я бы использовал git archive HEAD > filename.zipвместо вашей сложной команды --- в чем преимущество этого метода?

l0b0

@FedericoPoloni git rev-parse --show-toplevelпредоставляет вам каталог верхнего уровня репозитория, поэтому эта команда будет работать при запуске в любом месте репозитория. Помимо этого, я думаю, это зависит от того, хотите ли вы копию структуры каталогов или архив.

Воо

@Federico Лично я просто извлекаю репозиторий в том виде, в котором я хочу, а затем удаляю папку .git, но приятно знать, что для этого тоже есть команда;) (например, как архив работает с подмодулями?)

Федерико Полони

@Voo Понятия не имею --- Я сам не гуру git.

пользователь2768 · Answer 2

пользователь2768

Сделайте копию репозитория доступной по анонимному URL-адресу, например, используя Google Диск с новой учетной записью.
Отправьте копию репозитория вместе с вашей рукописью (если это разрешено журналом) или отправьте репозиторий редактору по электронной почте.

НихтЙенс

Если рецензенты захотят, то эту обфускацию легко обойти: взять любую нетривиальную часть кода (достаточно одного выразительного названия функции или комментария) и закинуть в гугл.

пользователь2768

@NichtJens Точно так же рефери может бросить одно или два предложения (из статьи) в Google и найти препринт. Как отмечается в другом комментарии, завеса анонимности автора легко срывается, и редакторы прекрасно об этом знают .

НихтЙенс

Точно! Не будет ли это проблемой и для двойного слепого обзора? РЕДАКТИРОВАТЬ: Судя по всему, это: statmodeling.stat.columbia.edu/2018/01/15/…

ДжошуаЗ

@NichtJens Смысл двойного слепого рецензирования не в том, чтобы сделать невозможным удаление ослепления, а в том, чтобы сделать это более трудным без каких-либо усилий со стороны рецензентов или авторов. Ни одна система не идеальна, и система должна работать с минимальным допущением этического поведения со стороны рецензентов, в том числе не предпринимать никаких усилий, чтобы преднамеренно выяснить, кто авторы.

НихтЙенс

Хорошо, я понимаю, что вы имеете в виду. Спасибо за разъяснение.

Петерис

@NichtJens как рецензент, система больше предназначена для того, чтобы я мог избежать непреднамеренной предвзятости - я не буду пытаться искать авторов, потому что мне все равно, увижу ли я имя, которое я узнаю на верхней части бумаги или в URL-адресе github, я ничего не могу сделать, чтобы развидеть его.

НихтЙенс

@Abigail Ну, журнал изменений можно легко запутать ... Это уже было предложено здесь.

аджама · Answer 3

Я сейчас буквально в той же ситуации, что и вы, и несколько дней назад наткнулся на этот репозиторий/сервис на GitHub: . Поскольку ваш код и имена уже общедоступны, это обеспечивает только базовый уровень запутывания. Однако, пока рецензенты честны и не пытаются активно узнать имена авторов, это должно уберечь их от случайного обнаружения вас.

Кроме того, наиболее эффективный подход — не публиковать его публично до тех пор, пока не будет проведена проверка, а вместо этого предоставлять код/документацию/что-либо в частном порядке через журнал. Меня беспокоит этот подход, поскольку он зависит от удаления любых ассоциаций с именами из материала. Так что же произойдет, если рецензент отклонит рукопись, а затем опубликует код или его части как свои собственные перед вами? Отсутствие общедоступной записи с вашей стороны может затруднить решение проблемы.

В конечном счете, вы мало что можете сделать с рецензентами, которые намеренно пытаются обойти анонимность. Даже без вашего имени где бы то ни было, если вы публиковались раньше, кто-то потенциально может получить довольно хорошее представление о том, кто вы, по содержанию и шаблонам в самой рукописи.

«самый эффективный подход — не публиковать его до тех пор, пока не будет проведена проверка», <— слишком поздно
@DavidRoberts Я видел. Я включил этот второй абзац больше для тех, кто может наткнуться на этот вопрос в будущем.
Если авторам предоставляется, хотя и отдельными средствами, доступ к анонимной копии кода, почему следует также избегать публичного выпуска кода?
@CurtJ.Sampson Если рецензентам необходимо выполнить поиск термина или концепции в статье в Интернете, документация в репозитории может содержать результаты поиска, особенно если это специализированная область исследований. В качестве альтернативы рецензент может захотеть посмотреть, какая еще работа была проделана, и убедиться, что статья правильно цитирует ее. Наконец, рецензент может искать сам код, чтобы убедиться, что кто-то еще не опубликовал код (чтобы убедиться, что это оригинальная работа, а не плагиат кода/нарушение авторских прав).
Наличие как записи о представлении, так и помещения кода в общедоступный репозиторий git (даже если код еще не общедоступен ) идеально сохраняет время авторов. В git можно произвольно устанавливать временные метки, но общедоступный репозиторий должен иметь собственный учет репозитория. Кроме того, можно опубликовать только последние или серию хэшей коммитов или другую контрольную сумму кодовой базы.

пользователь 2258552 · Answer 4

Самое простое, что можно сделать (к моему удивлению, это не было предложено раньше, и это довольно распространено) — создать анонимную учетную запись GitHub и продублировать туда свой код (загрузить код в один коммит, не дублировать сам репозиторий). поскольку вы не хотите, чтобы ваше настоящее имя пользователя присутствовало в истории коммитов).

битнгу13 · Answer 5

Существует Anonymous GitHub, прокси-сервер для поддержки анонимного просмотра репозиториев Github:

https://anonymous.4open.science/

Использование:

Заполните URL-адрес репозитория Github.

Заполните список терминов, которые будут анонимизированы. Анонимизация контента осуществляется путем замены всех вхождений слов в списке на «XXX». Список слов обычно содержит название учреждения, имена авторов, логины и т. д.

Определите, хотите ли вы указать дату истечения срока действия для вашего анонимного репозитория. Вы можете сохранить его навсегда, удалить репозиторий после определенной даты или перенаправить пользователя в репозиторий GitHub.

В результате создается уникальный URL с содержимым вашего репозитория, например, http://anonymous.4open.science/repository/840c8c57-3c32-451e-bf12-0e20be300389/ .

Двойная слепая экспертная оценка, когда в документе цитируется авторский репозиторий GitHub для кода

Дэвид Робертс

Дарий Гринберг

пользователь2768

Дарий Гринберг

Федерико Полони

Дарий Гринберг

Эньон

Дарий Гринберг

Дэн М.

Джуни Сирен

Норман Грей

Дэвид Робертс

Норман Грей

Ответы (5)

Федерико Полони

НихтЙенс

усул

НихтЙенс

Дэвид Робертс

l0b0

Федерико Полони

l0b0

Воо

Федерико Полони

пользователь2768

НихтЙенс

пользователь2768

НихтЙенс

ДжошуаЗ

НихтЙенс

Петерис

НихтЙенс

аджама

Дэвид Робертс

аджама

cjs

аджама

ti7

пользователь 2258552

битнгу13