Нужен ли нам предварительный тест, чтобы сравнить эффективность двух методов лечения?

Предположим, я хочу оценить, насколько эффективно два учителя преподают английский язык немецким детям. Оба учителя преподают в одной и той же средней школе в течение двадцати лет, и оба используют совершенно разные педагогические методики. На самом деле между ними возникла небольшая конкуренция: они публиковали и обсуждали свои идеи и практику в журналах, имеющих отношение к их профессии, и теперь они призвали аналитика данных (вас) для проведения этой оценки, которая, как они надеются, решит их состязание и примирение бывших друзей.

Школа, в которой они оба работают, является единственной школой для маленького городка. Когда ученики поступают в эту школу, им случайным образом распределяют классы: одна половина детей распределяется в один класс (и один учитель математики), другая половина - в другой класс (и другой учитель математики).

Два учителя устали от того, что не знают, какой метод лучше. В интересах своих учеников они хотят, наконец, выбрать лучший, и с этого момента оба используют его. Они надеются, что вам не нужно тестировать одну группу детей, когда они заканчивают начальную школу, обучать их в течение 8 лет с 5-го класса до окончания средней школы, а затем снова измерять их математические способности, чтобы прийти к заключение. Поэтому они спрашивают вас:

Достаточно ли сравнить уровни зависимой переменной после вмешательства? Или вам нужно измерить его до вмешательства? Почему?

Но вы измеряли депрессивность: вы знаете, что у ваших испытуемых легкая депрессия.
Я изменил свой пример на случай, когда у нас нет предварительной обработки значений.
В вашем примере назначение классов определенно не является случайным. Первая буква фамилии зависит от языка и, следовательно, от этнической принадлежности/происхождения и многих других соответствующих социально-экономических переменных во многих обществах. Это было легко опровергнуть, и это могло привести к некоторым большим корреляциям, но, вообще говоря, такого рода процедуры вообще не являются хорошим способом рандомизации.
@GaëlLaurans Да, хорошо, я отредактировал свой пример. Просто предположим , что назначение является случайным. Суть моего вопроса в другом.
Ну, поэтому это был просто комментарий. Я просто подумал, что это забавно, что вы так уверены в себе, когда для меня было очевидно, что это вызовет сильные психологически релевантные корреляции. Обращать внимание на такие вещи гораздо важнее, чем статистические тонкости или включение предварительных измерений. Что касается самого вопроса, я думаю, что Джероми уже достаточно хорошо его рассмотрел. Вы также можете проверить stats.stackexchange.com/questions/3466/… , который содержит множество ссылок по затронутым вопросам.
Это было бы хорошо и для перекрестной проверки (если возможно, это дубликат, хотя я не могу найти его, чтобы порекомендовать). Слишком много вопросов о том, что делать с уже собранными данными; недостаточно о дизайне исследования. Однако ответ Джероми великолепен; Я мог бы даже отослать к нему людей из резюме. :)

Ответы (1)

Ответ на основе вашего исходного примера депрессии

Обратите внимание, что этот ответ изначально был написан на основе вашего первоначального примера, где вы спросили:

Предположим, я разработал новое вмешательство для людей с легкой депрессией. Я хочу сравнить эффективность этого вмешательства (E) с существующим вмешательством (C). Для этого я набираю испытуемых из местной психотерапевтической скорой помощи и случайным образом распределяю их либо в экспериментальную (Э), либо в контрольную группу (С). Интересная зависимая переменная — это, конечно, депрессивность.

Как правило, вам не нужно измерять предварительную обработку для зависимой переменной . В пределе случайное назначение гарантирует равенство групп. Или, другими словами, случайное распределение гарантирует, что группы не будут предвзято относиться к тому, чтобы быть выше или ниже по зависимой переменной на исходном уровне. Типичный t-критерий между субъектами, сравнивающий баллы после лечения, как правило, обеспечивает беспристрастный тест того, оказало ли вмешательство влияние на зависимую переменную (например, депрессию) по сравнению с контрольным вмешательством.

Тем не менее, есть много преимуществ от включения базовой меры :

  • Включение базового показателя депрессии почти всегда даст вам больше статистической мощности, потому что вы сможете контролировать большую часть стабильных индивидуальных различий в зависимой переменной (например, депрессии).
  • Если вы, участники, выбываете во время вмешательства, может быть полезно посмотреть, связано ли это с базовыми уровнями.
  • Вы можете начать оценивать индивидуальные различия в эффекте вмешательства.
  • Если есть вопросы о том, правильно ли было выполнено случайное распределение, вы можете проверить исходные различия.

Обратите внимание, что существует несколько вариантов анализа планов до и после лечения, включая ANCOVA, оценки различий и эффекты взаимодействия. См. это обсуждение для дальнейших идей .

Обратите также внимание на то, что есть веские причины оценивать вмешательство, измеряя более двух моментов времени . Например, вы можете получить (а) несколько исходных показателей, чтобы получить представление о стабильности до вмешательства (б) несколько показателей, которые вы можете измерить во время вмешательства, чтобы оценить депрессию во время вмешательства, и (в) несколько дополнительных показателей, особенно для увидеть как немедленный, так и долгосрочный эффект вмешательства.

Обновлены точки на основе обучающего примера

  • Это эмпирический вопрос, связана ли первая буква фамилии с эффектом педагогического вмешательства или исходными различиями. В целом было бы лучше иметь лучшую форму рандомизации участников по группам.
  • Если есть вопросы о процедуре рандомизации, для ее проверки может быть полезно наличие предварительного теста.
  • Есть несколько конкретных вопросов, связанных с оценкой эффективности вмешательств, касающихся детей в классных комнатах, даже когда учащиеся были распределены по классам случайным образом. а) имея всего по одному классу в каждом классе, трудно понять, каков эффект учителя и каков эффект учебной программы; (b) как правило, будет отсутствовать независимые наблюдения. Так, например, ученики в классе могут влиять друг на друга. Таким образом, ваш эффективный размер выборки не так велик, как может показаться.
Хорошо, я понял. Давайте предположим, что это не лечение депрессии, а то, что переживает население в целом, например, школьное образование. Так что интересующая нас популяция — это не субпопуляция, которую будет сложно идентифицировать, а просто все. Таким образом, будет легко собрать повторяющиеся случайные выборки и убедиться, что все выборки имеют одинаковые нормально распределенные характеристики (например, итоговые школьные оценки). [продолжение]
[продолжение] Будет ли правомерно измерять эффекты двух «лечений» в двух классах, обучаемых двумя разными методами, и измерять исходный уровень с помощью третьей группы детей, только что поступивших в школу в одно и то же время (например, 11 июня, 2013), вместо того, чтобы измерять группу первоклассников сейчас и снова измерять тех же детей, после лечения, через десять лет? (Предположим, что дети были случайным образом распределены в экспериментальный и контрольный классы и т. д. Я просто пытаюсь понять принципы, примеры придумываются на ходу.)
Ключевая вещь, которую вы упомянули в своем вопросе, - это «случайное назначение». В общем случае выбор зависимой переменной ничего не меняет. Тем не менее, когда вы попадаете в конкретный исследовательский контекст, возникают разные проблемы. Например, педагогические вмешательства имеют свои особенности, связанные со способом проведения в общих аудиториях.
Я изменил свой пример, чтобы лучше соответствовать вопросу. Может быть, так больше смысла.
Я хотел бы подчеркнуть, что, хотя в теории достаточно случайного распределения (как уже отмечал Джероми), в действительности получить случайные выборки очень сложно. Например, вы не можете случайным образом распределять учеников по классам. И даже если бы вы это сделали, с этого момента все они находятся в одном классе, и меры больше не являются независимыми. Иерархические модели были разработаны с учетом этого приложения, но они подходят для различных контекстов. Так что, возможно, это вариант.
Я понимаю проблемы с рандомизацией. Но в реальных исследованиях рандомизация часто невозможна. Подумайте об онлайн-опросах: есть выбор участников на основе того, кто имеет доступ к Интернету, а кто нет (и даже сегодня не у всех есть), технических требований (кто-то здесь недавно запрограммировал опрос на Java, который работает только под Windows — никакого Linux, Mac или мобильного доступа) и т. д. Очевидно, что люди не выбрасывают данные таких опросов, и результаты публикуются. Итак, если оставить в стороне проблемы рандомизации, суть моего вопроса в том, нужен ли нам предварительный тест.
@what Вы путаете рандомизацию и случайную выборку. Вполне возможно случайным образом распределить самостоятельно выбранных участников интернет-опроса по различным условиям и сделать обоснованные выводы об эффекте этой манипуляции. Обобщение ваших выводов на четко определенную популяцию (помимо «людей, готовых участвовать в моем исследовании») проблематично, но это совсем другая проблема. Также обратите внимание, что предварительные меры могут быть полезны для ряда вещей, но они не заменяют рандомизацию.
@GaëlLaurans Вы правы, спасибо.