Должен ли я просматривать данные эксперимента до того, как набор данных будет завершен?

Для исследовательской стажировки я провожу психологические эксперименты онлайн. Поскольку для завершения эксперимента требуется некоторое время (это означает, что в нем участвовало достаточное количество людей, чтобы был достигнут достаточный размер выборки), я уже мог просмотреть данные и провести несколько анализов с этим неполным набором данных. Таким образом, я уже мог видеть тенденцию в том, каким может быть конечный результат.

Есть ли методологические причины, говорящие против этого? Например, не предвзято ли я себя таким образом? Или есть какая-то другая причина, по которой это можно считать плохой исследовательской практикой?

Ответы (3)

Краткий ответ
С этической точки зрения не включать промежуточные оценки может быть плохой практикой.

Фон
Я начну с более экстремального случая, чем в примере с вашим вопросом, просто для иллюстрации, а именно с клинического интервенционного исследования . Если оказывается, что в группе лечения (скажем, экспериментальное лекарство Y вместо стандартного лечения X ) наблюдается существенно, если не значительно, больше случаев серьезных нежелательных явлений или даже смертей, которые могут (или не могут) быть связаны к лечению Y , этически лучшее, что можно сделатьотложил исследование до выяснения обстоятельств. Это делается для предотвращения любой возможности дальнейшего физического вреда, вызванного экспериментальным лечением. Это происходит довольно регулярно и должно сопровождаться отчетным документом с изложением результатов и обсуждением наилучшего способа продолжения этого исследования, если это применимо.

В более экспериментальных условиях лучше всего с этической точки зрения оценивать предварительные данные, поскольку могут стать очевидными возможные недостатки плана эксперимента, неожиданные результаты (странные результаты или артефакты, скажем, у левшей) или искажающие факторы, и своевременная корректировка можно составить протокол эксперимента. Почему это этически правильно? Потому что вы можете подвергать людей ошибочной экспериментальной парадигме и тратить впустую многие часы более продуктивного времени.

Случай, предоставленный другим ответчиком, когда эксперимент остановлен, в то время как был проведен предварительный статистический анализ мощности, является злоупотреблением служебным положением. И наоборот, добавление дополнительных предметов постфактум на основе «почти значимости» также является сомнительной практикой. Но это больше связано с тем, что вы делаете с экспериментальными промежуточными данными. На мой взгляд, их следует критически оценивать, но не столько с точки зрения размера эффекта, сколько с точки зрения осуществимости, правильности и достоверности - в основном для проверки вменяемости результатов исследования.

Вы и @qjacob даете несколько очень хороших замечаний. На самом деле, я провел анализ мощности, что я и имел в виду, когда написал «до тех пор, пока не будет достигнут достаточный размер выборки», но я думаю, что это могло быть более ясно. Я рад, что я не совсем на неправильном пути тогда. Большое спасибо!
Это хороший ответ, и я мог бы также указать, что правильно разработанный экспериментальный метод не подвержен предвзятости со стороны человека, применяющего этот метод. Не должно быть возможности повлиять на будущие результаты, основываясь на ваших знаниях о прошлых результатах. Если это так, у вас проблема с методологией.
@ rmayer06: чтобы уточнить, вы говорите, что необязательная остановка не влияет на частоту ошибок типа I (как предлагает gjacob ниже), если эксперимент правильно спланирован? Не хочу искажать свою позицию, прежде чем ответить.
@jsakaluk- да, я об этом и говорю. У всех исследований есть время между запусками, поэтому остановка происходит автоматически. Очевидно, что если вы остановитесь на длительный период времени, у вас могут возникнуть другие проблемы и изменчивость.

gjacob прав в том, что необязательная остановка — это обычная исследовательская степень свободы, имеющая значительную и неудачную интуитивную основу. Тем не менее, в зависимости от контекста вашего исследования, опасения AliceD также важны.

Однако есть золотая середина между полным отсутствием проверки и п-хакингом: последовательный анализ. Существует байесовская версия последовательного анализа, которую я могу обновить, если это ваша статистическая парадигма, но я предполагаю, что вы хотите провести промежуточный анализ с использованием проверки значимости нулевой гипотезы, поэтому я сосредоточусь здесь на этом. Лейкенс (2014) дает хороший обзор этой практики. По сути, вы берете уровень α вы хотите поддерживать свои «взгляды» (например, α = 0,05), и распределите эту сумму α над количеством просмотров, которые вы хотите использовать в своем общем процессе выборки. Тогда, если п ниже, чем это распределение α в любой из ваших просмотров вы можете отклонить нуль в α = 0,05, и вы не завысите частоту ошибок типа I, как если бы вы делали это с помощью общей необязательной остановки.

Это немного сложнее, чем то, что я представляю здесь, и существует ряд методов для распределения ваших общих α -- но ненамного. Если вы можете понять коррекцию Бонферрони, это очень похожая техника.

Лакенс, Д. (2014). Эффективное выполнение мощных исследований с последовательным анализом. Европейский журнал социальной психологии , 44(7), 701-710.

Добро пожаловать и спасибо за отличный ответ. +1
Спасибо! Некоторое время я присматривал за бета-версией :) Надеялся, что здесь будет задаваться больше вопросов, связанных с воспроизводимостью (и на них даются ответы), чтобы у нас были вопросы и ответы с возможностью поиска по сравнению с бесконечными повторяющимися вопросами в социальных сетях. Рад видеть, что такие вопросы появляются здесь!
Этот тип вопроса также может подойти для CrossValidated и, возможно, даже для академических кругов. Поэтому я думаю, что количество таких вопросов, размещенных в этом стеке, останется небольшим. Тем не менее, я думаю, что это отличный вопрос, поскольку на него можно ответить с разных точек зрения, как показывают разнообразные ответы. Хороший материал здесь.

Это важный вопрос! Эта практика («необязательная остановка», если вы прекращаете собирать данные на основе ваших ранних анализов, или «подглядывание», если вы продолжаете собирать данные) в настоящее время считается плохой идеей. Это «степень свободы исследователя» — практика, которая в долгосрочной перспективе и усредненная по всей области, по-видимому, (эмпирически) приводит к высокому уровню ложноположительных результатов. Это форма исследовательского анализа, и хотя EA неплох сам по себе, необязательная остановка/заглядывание может предрасполагать исследователей к поиску значимости тенденций, которые они видят в своих данных, возможно, путем выборочного исключения определенных наблюдений, отказа от своих априорных гипотез, игнорируя их априорный анализ мощности и т. д.

Вместо этого рассмотрите возможность проведения анализа мощности. (Я рекомендую G*Power , который можно бесплатно загрузить). Я советую выполнить анализ мощности, прежде чем вы начнете собирать данные, определить общее N, на которое вы будете стрелять, и не заглядывать в свои данные, пока вы не нажмете это. Это эффективно «ослепляет» вас, подобно тому, как исследователи-медики могут использовать двойные слепые исследования, чтобы гарантировать достоверность своих результатов.

Ознакомьтесь с этой статьей для более подробного обсуждения степеней свободы исследователя: http://journals.sagepub.com/doi/abs/10.1177/0956797611417632