Исследования того, насколько шумно принимать/отклонять заявки

В этом году на конференции NIPS 2014 был проведен интересный эксперимент: председатели конференции продублировали 10% заявок (170 статей) и разослали их двум разным группам рецензентов. Результат: 25,9% несогласия .

Это указывает на то, что почти для каждой из четырех статей статья принимается одной группой экспертов и отвергается другой группой. Это просто показывает, насколько шумным является процесс рецензирования. Мне было интересно, были ли другие подобные эксперименты для других областей и каков был процент разногласий в каждом (независимо от места проведения: журнал или конференция).

Отличный вопрос! Это похоже на запрос ответов, основанный на «подтверждающем документе или цитате» (т. е. исследовании), поэтому я добавил тег справочного запроса , надеюсь, все в порядке.
@ ff524 Было бы идеально, если бы ответ подкреплялся ресурсами/ссылками. Однако, даже в случае отсутствия официальных результатов, возможно, некоторые пользователи здесь знают о неофициальных экспериментах (т.е. проведенных благодаря их роли в организации конференций/редактировании журналов), и я был бы рад их услышать.
Интересный. Это говорит о том, что если вы отправляете в достаточное количество журналов, статья в конечном итоге будет принята, даже если вы повторно отправите ту же самую статью (при условии, что каждый раз у вас будут разные рецензенты).
@Bitwise На практике именно столько статей публикуется.
@ ff524 Я думал, что стандартный процесс состоит в том, чтобы пересматривать рукопись после каждого отклонения в соответствии с предложениями рецензентов (если только они не знают, о чем говорят).
@Bitwise Так и должно быть (если нет законных несогласий с предложениями рецензентов). Но есть люди, которые не заморачиваются - "покупать журналы" проще, чем реально работать! Также см. Повторный запрос на рецензирование статьи, когда авторы не хотят ее изменять.
@Bitwise Вы слишком оптимистичны в отношении перспектив публикации статьи, отправляя ее снова и снова, пока (так сказать) не выиграете джекпот рецензента. Более вероятно, что есть некоторые статьи, которые будут приняты любыми рецензентами, некоторые будут отклонены любыми, а также пограничные статьи, такие как 25,9%. Повторная отправка пограничной статьи в конечном итоге будет принята, если будет достаточно независимых рецензентов. А вот "всеми отвергнутыми" бумагам все равно не повезло бы.

Ответы (1)

По этому поводу было проведено много исследований. Вот недавний метаанализ 48(!) из них:

Борнманн, Лутц, Рюдигер Мутц и Ханс-Дитер Даниэль. «Исследование обобщения надежности рецензий журналов: многоуровневый метаанализ межоценочной надежности и ее детерминант». PLOS ONE 5.12 (2010): e14331.

Вот аннотация:

Фон

В этой статье представлен первый метаанализ межрейтинговой надежности (IRR) рецензий журналов. IRR определяется как степень совпадения двух или более независимых обзоров одного и того же научного документа.

Методология/основные выводы

Всего в метаанализе было учтено 70 коэффициентов надежности (коэновская каппа, внутриклассовая корреляция [ICC] и корреляция между продуктом и моментом Пирсона [r]) из 48 исследований. Исследования были основаны на 19 443 рукописях; в среднем каждое исследование имело размер выборки 311 рукописей (минимум: 28, максимум: 1983). Результаты метаанализа подтвердили результаты опубликованных на сегодняшний день обзоров нарративной литературы: уровень ВСД (среднее значение ICC/r 2= 0,34, среднее значение Каппа Коэна = 0,17) было низким. Чтобы объяснить изменение коэффициентов IRR от исследования к исследованию, мета-регрессионный анализ был рассчитан с использованием семи ковариат. Две ковариаты, которые были выявлены в мета-регрессионном анализе как статистически значимые для получения приблизительной однородности корреляций внутри класса, показали, что, во-первых, чем больше рукописей, на которых основано исследование, тем меньше сообщаемые коэффициенты IRR. Во-вторых, если информация рейтинговой системы для рецензентов сообщалась в исследовании, то это было связано с меньшим коэффициентом IRR, чем если бы информация не сообщалась.

Выводы/значимость

Исследования, сообщающие о высоком уровне IRR, следует считать менее достоверными, чем исследования с низким уровнем IRR. Согласно нашему мета-анализу, IRR оценок сверстников довольно ограничен и нуждается в улучшении (например, система чтения).

Этот метаанализ включает в себя исследования соглашения о рецензировании в области экономики/права, естественных наук, медицинских наук и социальных наук.

Вот еще один документ, который включает в себя раздел о надежности рецензирования (т.е. соглашение между рецензентами), в котором резюмируется ряд других исследований:

Борнманн, Лутц. «Научная экспертная оценка». Ежегодный обзор информационных наук и технологий 45.1 (2011): 197-245.

В частности, в информатике есть следующее :

Рагоне, Адзурра и др. «О рецензировании в области информатики: анализ его эффективности и предложения по улучшению». Наукометрия 97.2 (2013): 317-356.

Они измерили согласие между рецензентами в

большой набор обзоров данных десяти различных конференций по информатике на общую сумму ок. 9000 отзывов на ок. 2800 представленных материалов.

и нашел

в нашем случае у нас есть шесть конференций с ИКК > 0,6, т. е. со значительной корреляцией, 3 конференции со справедливой корреляцией (0,4 < ИКК < 0,59) и одна конференция с плохой корреляцией среди оценщиков (ИКК < 0,4).

Они также обнаружили, что согласие по документам с «сильным отклонением» было намного выше, чем согласие по другим документам. Точнее,

Более детальный анализ показывает, что если кто-либо ставит оценку из полосы «сильное отклонение», то это увеличивает вероятность выставления оценок не только из полос сильного и слабого отклонения (на 14 и 63 % соответственно), но и из пограничной полосы (на 11 %). %). В наборе «сильное согласие» вероятность того, что другие поставят оценку «слабое согласие», на 20% выше, чем общая вероятность, но вероятность поставить оценки из других диапазонов почти такая же, как и общие вероятности.

Таким образом, мы можем сказать, что у нас есть оценки, смещенные в сторону «слабого принятия», и рецензенты по-прежнему соглашаются с очень плохими вкладами, но не соглашаются с очень хорошими.