Нужен ли нам предварительный тест, чтобы сравнить эффективность двух методов лечения?

Question

Нужен ли нам предварительный тест, чтобы сравнить эффективность двух методов лечения?

Анонимный

Предположим, я хочу оценить, насколько эффективно два учителя преподают английский язык немецким детям. Оба учителя преподают в одной и той же средней школе в течение двадцати лет, и оба используют совершенно разные педагогические методики. На самом деле между ними возникла небольшая конкуренция: они публиковали и обсуждали свои идеи и практику в журналах, имеющих отношение к их профессии, и теперь они призвали аналитика данных (вас) для проведения этой оценки, которая, как они надеются, решит их состязание и примирение бывших друзей.

Школа, в которой они оба работают, является единственной школой для маленького городка. Когда ученики поступают в эту школу, им случайным образом распределяют классы: одна половина детей распределяется в один класс (и один учитель математики), другая половина - в другой класс (и другой учитель математики).

Два учителя устали от того, что не знают, какой метод лучше. В интересах своих учеников они хотят, наконец, выбрать лучший, и с этого момента оба используют его. Они надеются, что вам не нужно тестировать одну группу детей, когда они заканчивают начальную школу, обучать их в течение 8 лет с 5-го класса до окончания средней школы, а затем снова измерять их математические способности, чтобы прийти к заключение. Поэтому они спрашивают вас:

Достаточно ли сравнить уровни зависимой переменной после вмешательства? Или вам нужно измерить его до вмешательства? Почему?

Ана

Но вы измеряли депрессивность: вы знаете, что у ваших испытуемых легкая депрессия.

пользователь3116

Я изменил свой пример на случай, когда у нас нет предварительной обработки значений.

Гала

В вашем примере назначение классов определенно не является случайным. Первая буква фамилии зависит от языка и, следовательно, от этнической принадлежности/происхождения и многих других соответствующих социально-экономических переменных во многих обществах. Это было легко опровергнуть, и это могло привести к некоторым большим корреляциям, но, вообще говоря, такого рода процедуры вообще не являются хорошим способом рандомизации.

пользователь3116

@GaëlLaurans Да, хорошо, я отредактировал свой пример. Просто предположим , что назначение является случайным. Суть моего вопроса в другом.

Гала

Ну, поэтому это был просто комментарий. Я просто подумал, что это забавно, что вы так уверены в себе, когда для меня было очевидно, что это вызовет сильные психологически релевантные корреляции. Обращать внимание на такие вещи гораздо важнее, чем статистические тонкости или включение предварительных измерений. Что касается самого вопроса, я думаю, что Джероми уже достаточно хорошо его рассмотрел. Вы также можете проверить stats.stackexchange.com/questions/3466/… , который содержит множество ссылок по затронутым вопросам.

Ник Стаунер

Это было бы хорошо и для перекрестной проверки (если возможно, это дубликат, хотя я не могу найти его, чтобы порекомендовать). Слишком много вопросов о том, что делать с уже собранными данными; недостаточно о дизайне исследования. Однако ответ Джероми великолепен; Я мог бы даже отослать к нему людей из резюме. :)

Ответы (1)

Нужен ли нам предварительный тест, чтобы сравнить эффективность двух методов лечения?

Но вы измеряли депрессивность: вы знаете, что у ваших испытуемых легкая депрессия.
Я изменил свой пример на случай, когда у нас нет предварительной обработки значений.
В вашем примере назначение классов определенно не является случайным. Первая буква фамилии зависит от языка и, следовательно, от этнической принадлежности/происхождения и многих других соответствующих социально-экономических переменных во многих обществах. Это было легко опровергнуть, и это могло привести к некоторым большим корреляциям, но, вообще говоря, такого рода процедуры вообще не являются хорошим способом рандомизации.
@GaëlLaurans Да, хорошо, я отредактировал свой пример. Просто предположим , что назначение является случайным. Суть моего вопроса в другом.
Ну, поэтому это был просто комментарий. Я просто подумал, что это забавно, что вы так уверены в себе, когда для меня было очевидно, что это вызовет сильные психологически релевантные корреляции. Обращать внимание на такие вещи гораздо важнее, чем статистические тонкости или включение предварительных измерений. Что касается самого вопроса, я думаю, что Джероми уже достаточно хорошо его рассмотрел. Вы также можете проверить stats.stackexchange.com/questions/3466/… , который содержит множество ссылок по затронутым вопросам.
Это было бы хорошо и для перекрестной проверки (если возможно, это дубликат, хотя я не могу найти его, чтобы порекомендовать). Слишком много вопросов о том, что делать с уже собранными данными; недостаточно о дизайне исследования. Однако ответ Джероми великолепен; Я мог бы даже отослать к нему людей из резюме. :)

Джероми Энглим · Answer 1

Ответ на основе вашего исходного примера депрессии

Обратите внимание, что этот ответ изначально был написан на основе вашего первоначального примера, где вы спросили:

Предположим, я разработал новое вмешательство для людей с легкой депрессией. Я хочу сравнить эффективность этого вмешательства (E) с существующим вмешательством (C). Для этого я набираю испытуемых из местной психотерапевтической скорой помощи и случайным образом распределяю их либо в экспериментальную (Э), либо в контрольную группу (С). Интересная зависимая переменная — это, конечно, депрессивность.

Как правило, вам не нужно измерять предварительную обработку для зависимой переменной . В пределе случайное назначение гарантирует равенство групп. Или, другими словами, случайное распределение гарантирует, что группы не будут предвзято относиться к тому, чтобы быть выше или ниже по зависимой переменной на исходном уровне. Типичный t-критерий между субъектами, сравнивающий баллы после лечения, как правило, обеспечивает беспристрастный тест того, оказало ли вмешательство влияние на зависимую переменную (например, депрессию) по сравнению с контрольным вмешательством.

Тем не менее, есть много преимуществ от включения базовой меры :

Включение базового показателя депрессии почти всегда даст вам больше статистической мощности, потому что вы сможете контролировать большую часть стабильных индивидуальных различий в зависимой переменной (например, депрессии).
Если вы, участники, выбываете во время вмешательства, может быть полезно посмотреть, связано ли это с базовыми уровнями.
Вы можете начать оценивать индивидуальные различия в эффекте вмешательства.
Если есть вопросы о том, правильно ли было выполнено случайное распределение, вы можете проверить исходные различия.

Обратите внимание, что существует несколько вариантов анализа планов до и после лечения, включая ANCOVA, оценки различий и эффекты взаимодействия. См. это обсуждение для дальнейших идей .

Обратите также внимание на то, что есть веские причины оценивать вмешательство, измеряя более двух моментов времени . Например, вы можете получить (а) несколько исходных показателей, чтобы получить представление о стабильности до вмешательства (б) несколько показателей, которые вы можете измерить во время вмешательства, чтобы оценить депрессию во время вмешательства, и (в) несколько дополнительных показателей, особенно для увидеть как немедленный, так и долгосрочный эффект вмешательства.

Обновлены точки на основе обучающего примера

Это эмпирический вопрос, связана ли первая буква фамилии с эффектом педагогического вмешательства или исходными различиями. В целом было бы лучше иметь лучшую форму рандомизации участников по группам.
Если есть вопросы о процедуре рандомизации, для ее проверки может быть полезно наличие предварительного теста.
Есть несколько конкретных вопросов, связанных с оценкой эффективности вмешательств, касающихся детей в классных комнатах, даже когда учащиеся были распределены по классам случайным образом. а) имея всего по одному классу в каждом классе, трудно понять, каков эффект учителя и каков эффект учебной программы; (b) как правило, будет отсутствовать независимые наблюдения. Так, например, ученики в классе могут влиять друг на друга. Таким образом, ваш эффективный размер выборки не так велик, как может показаться.

Хорошо, я понял. Давайте предположим, что это не лечение депрессии, а то, что переживает население в целом, например, школьное образование. Так что интересующая нас популяция — это не субпопуляция, которую будет сложно идентифицировать, а просто все. Таким образом, будет легко собрать повторяющиеся случайные выборки и убедиться, что все выборки имеют одинаковые нормально распределенные характеристики (например, итоговые школьные оценки). [продолжение]
[продолжение] Будет ли правомерно измерять эффекты двух «лечений» в двух классах, обучаемых двумя разными методами, и измерять исходный уровень с помощью третьей группы детей, только что поступивших в школу в одно и то же время (например, 11 июня, 2013), вместо того, чтобы измерять группу первоклассников сейчас и снова измерять тех же детей, после лечения, через десять лет? (Предположим, что дети были случайным образом распределены в экспериментальный и контрольный классы и т. д. Я просто пытаюсь понять принципы, примеры придумываются на ходу.)
Ключевая вещь, которую вы упомянули в своем вопросе, - это «случайное назначение». В общем случае выбор зависимой переменной ничего не меняет. Тем не менее, когда вы попадаете в конкретный исследовательский контекст, возникают разные проблемы. Например, педагогические вмешательства имеют свои особенности, связанные со способом проведения в общих аудиториях.
Я изменил свой пример, чтобы лучше соответствовать вопросу. Может быть, так больше смысла.
Я хотел бы подчеркнуть, что, хотя в теории достаточно случайного распределения (как уже отмечал Джероми), в действительности получить случайные выборки очень сложно. Например, вы не можете случайным образом распределять учеников по классам. И даже если бы вы это сделали, с этого момента все они находятся в одном классе, и меры больше не являются независимыми. Иерархические модели были разработаны с учетом этого приложения, но они подходят для различных контекстов. Так что, возможно, это вариант.
Я понимаю проблемы с рандомизацией. Но в реальных исследованиях рандомизация часто невозможна. Подумайте об онлайн-опросах: есть выбор участников на основе того, кто имеет доступ к Интернету, а кто нет (и даже сегодня не у всех есть), технических требований (кто-то здесь недавно запрограммировал опрос на Java, который работает только под Windows — никакого Linux, Mac или мобильного доступа) и т. д. Очевидно, что люди не выбрасывают данные таких опросов, и результаты публикуются. Итак, если оставить в стороне проблемы рандомизации, суть моего вопроса в том, нужен ли нам предварительный тест.
@what Вы путаете рандомизацию и случайную выборку. Вполне возможно случайным образом распределить самостоятельно выбранных участников интернет-опроса по различным условиям и сделать обоснованные выводы об эффекте этой манипуляции. Обобщение ваших выводов на четко определенную популяцию (помимо «людей, готовых участвовать в моем исследовании») проблематично, но это совсем другая проблема. Также обратите внимание, что предварительные меры могут быть полезны для ряда вещей, но они не заменяют рандомизацию.

Нужен ли нам предварительный тест, чтобы сравнить эффективность двух методов лечения?

Анонимный

Ана

пользователь3116

Гала

пользователь3116

Гала

Ник Стаунер

Ответы (1)

Джероми Энглим

Ответ на основе вашего исходного примера депрессии

Обновлены точки на основе обучающего примера

пользователь3116

пользователь3116

Джероми Энглим

пользователь3116

Йенс Курос

пользователь3116

Гала

пользователь3116

Как измерить точность в рамках классической теории тестирования?

Когда в психологических исследованиях оправдано использование манифестных переменных вместо латентных?

Лучшая практика обработки двойных отрицаний при использовании модели ожидаемого значения?

Какие инструменты доступны для анализа ЭЭГ на платформе R?

Корреляция, используемая в качестве объяснительного устройства в «Нейронауке интеллекта».

В чем разница между аспектами и факторами?

Примеры вмешательств, дающих большой долгосрочный эффект в психологии

Как измерить групповые различия, включая компромисс между временем реакции и точностью?

Как реагировать на диагноз СДВ/СДВГ себе или ребенку? [закрыто]

Каково улучшение теста-ретеста в тесте Block Design?