Для исследовательской стажировки я провожу психологические эксперименты онлайн. Поскольку для завершения эксперимента требуется некоторое время (это означает, что в нем участвовало достаточное количество людей, чтобы был достигнут достаточный размер выборки), я уже мог просмотреть данные и провести несколько анализов с этим неполным набором данных. Таким образом, я уже мог видеть тенденцию в том, каким может быть конечный результат.
Есть ли методологические причины, говорящие против этого? Например, не предвзято ли я себя таким образом? Или есть какая-то другая причина, по которой это можно считать плохой исследовательской практикой?
Краткий ответ
С этической точки зрения не включать промежуточные оценки может быть плохой практикой.
Фон
Я начну с более экстремального случая, чем в примере с вашим вопросом, просто для иллюстрации, а именно с клинического интервенционного исследования . Если оказывается, что в группе лечения (скажем, экспериментальное лекарство Y вместо стандартного лечения X ) наблюдается существенно, если не значительно, больше случаев серьезных нежелательных явлений или даже смертей, которые могут (или не могут) быть связаны к лечению Y , этически лучшее, что можно сделатьотложил исследование до выяснения обстоятельств. Это делается для предотвращения любой возможности дальнейшего физического вреда, вызванного экспериментальным лечением. Это происходит довольно регулярно и должно сопровождаться отчетным документом с изложением результатов и обсуждением наилучшего способа продолжения этого исследования, если это применимо.
В более экспериментальных условиях лучше всего с этической точки зрения оценивать предварительные данные, поскольку могут стать очевидными возможные недостатки плана эксперимента, неожиданные результаты (странные результаты или артефакты, скажем, у левшей) или искажающие факторы, и своевременная корректировка можно составить протокол эксперимента. Почему это этически правильно? Потому что вы можете подвергать людей ошибочной экспериментальной парадигме и тратить впустую многие часы более продуктивного времени.
Случай, предоставленный другим ответчиком, когда эксперимент остановлен, в то время как был проведен предварительный статистический анализ мощности, является злоупотреблением служебным положением. И наоборот, добавление дополнительных предметов постфактум на основе «почти значимости» также является сомнительной практикой. Но это больше связано с тем, что вы делаете с экспериментальными промежуточными данными. На мой взгляд, их следует критически оценивать, но не столько с точки зрения размера эффекта, сколько с точки зрения осуществимости, правильности и достоверности - в основном для проверки вменяемости результатов исследования.
gjacob прав в том, что необязательная остановка — это обычная исследовательская степень свободы, имеющая значительную и неудачную интуитивную основу. Тем не менее, в зависимости от контекста вашего исследования, опасения AliceD также важны.
Однако есть золотая середина между полным отсутствием проверки и п-хакингом: последовательный анализ. Существует байесовская версия последовательного анализа, которую я могу обновить, если это ваша статистическая парадигма, но я предполагаю, что вы хотите провести промежуточный анализ с использованием проверки значимости нулевой гипотезы, поэтому я сосредоточусь здесь на этом. Лейкенс (2014) дает хороший обзор этой практики. По сути, вы берете уровень вы хотите поддерживать свои «взгляды» (например, = 0,05), и распределите эту сумму над количеством просмотров, которые вы хотите использовать в своем общем процессе выборки. Тогда, если ниже, чем это распределение в любой из ваших просмотров вы можете отклонить нуль в = 0,05, и вы не завысите частоту ошибок типа I, как если бы вы делали это с помощью общей необязательной остановки.
Это немного сложнее, чем то, что я представляю здесь, и существует ряд методов для распределения ваших общих -- но ненамного. Если вы можете понять коррекцию Бонферрони, это очень похожая техника.
Лакенс, Д. (2014). Эффективное выполнение мощных исследований с последовательным анализом. Европейский журнал социальной психологии , 44(7), 701-710.
Это важный вопрос! Эта практика («необязательная остановка», если вы прекращаете собирать данные на основе ваших ранних анализов, или «подглядывание», если вы продолжаете собирать данные) в настоящее время считается плохой идеей. Это «степень свободы исследователя» — практика, которая в долгосрочной перспективе и усредненная по всей области, по-видимому, (эмпирически) приводит к высокому уровню ложноположительных результатов. Это форма исследовательского анализа, и хотя EA неплох сам по себе, необязательная остановка/заглядывание может предрасполагать исследователей к поиску значимости тенденций, которые они видят в своих данных, возможно, путем выборочного исключения определенных наблюдений, отказа от своих априорных гипотез, игнорируя их априорный анализ мощности и т. д.
Вместо этого рассмотрите возможность проведения анализа мощности. (Я рекомендую G*Power , который можно бесплатно загрузить). Я советую выполнить анализ мощности, прежде чем вы начнете собирать данные, определить общее N, на которое вы будете стрелять, и не заглядывать в свои данные, пока вы не нажмете это. Это эффективно «ослепляет» вас, подобно тому, как исследователи-медики могут использовать двойные слепые исследования, чтобы гарантировать достоверность своих результатов.
Ознакомьтесь с этой статьей для более подробного обсуждения степеней свободы исследователя: http://journals.sagepub.com/doi/abs/10.1177/0956797611417632
Миккель Шёттнер
Майер
джсакалук
Майер