Обоснование концепции «все или ничего» для теста в целях диагностики и эпидемологии

В тесте « Коэффициент спектра аутизма » испытуемый сталкивается с пятьюдесятью утверждениями, такими как:

Я не особо люблю читать художественную литературу.

Я предпочитаю повторять одно и то же снова и снова.

и спрашивают, являются ли они

  • безусловно согласен,
  • немного согласен,
  • немного не согласен или
  • определенно не согласен

с ними. Нейтрального варианта нет.

Тест оценивается следующим образом: если испытуемый соглашается с «аутичным» утверждением, он получает балл. То же самое относится, если они не согласны с «неаутичным» утверждением. Нет разницы между слегка и определенно согласным (или несогласным).

Я ожидаю, что такой дизайн теста (без нейтрального варианта, без различия между слабыми и сильными тенденциями) приведет к усилению малых эффектов, таких как интерпретация вопроса, слабые тенденции, прайминг, случайность и так далее. Хотя я признаю, что этот эффект может быть желательным в опросах клиентов и т. п., мне он кажется проблематичным в тесте для целей диагностики и эпидемологии (например, в этом тесте). Например, я ожидаю, что люди, у которых уже диагностирован аутизм (и они об этом знают), или люди с банально аутистическими интересами, такими как математика, с большей вероятностью склонятся к более аутистическому варианту, даже если их фактическая позиция по вопросу нейтральна.

Теперь, я непрофессионал, и я признаю, что разработать такой тест непросто, так как нужно учитывать несколько эффектов. Поэтому я задаюсь вопросом: каковы оправдания такого дизайна теста , в частности, в свете его приложений (диагностика и эпидемология) и моей критики выше? В документе, представляющем тест , нет никаких ссылок или причин для этого, по крайней мере, не в тех разделах, где я этого ожидал.

Это абсолютно правильный, но сверхширокий вопрос. К этому вопросу есть 4 подвопроса. Во-первых, это история теста «Коэффициент спектра аутизма» и то, как он подтверждался/оспаривался на протяжении многих лет. Во-вторых, насколько типы тестов подвержены влиянию прайминга и стереотипов. В-третьих, подрывается ли этот тест отсутствием нейтрального варианта. В-четвертых, действительны ли опросы без методов сравнения. Пожалуйста, разделите этот вопрос на подвопросы, и я поддержу их все.
@ Seanny123: Я понимаю вашу точку зрения, и, учитывая, что я даже отдаленно не могу оценить, насколько длинными могут быть возможные ответы, вы вполне можете быть правы. Однако, прежде чем я последую вашему предложению, учтите следующее: 1) Меня не очень интересует история теста или проверка как таковая, если только она не дает ответов на мой основной вопрос (вопросы). 2) Меня не очень беспокоят вопросы, затронутые в ваших последних трех вопросах сами по себе (например, я полностью признаю неизбежность влияния прайминга и стереотипов). Вместо этого я обеспокоен их взаимодействием.
Я понимаю, что вы (законно) интересуетесь только их взаимодействием, но я полагаю, что я утверждаю, что я лично считаю, что мы должны сначала установить их индивидуальную достоверность, прежде чем рассматривать их взаимодействие.
@ Seanny123: Я сузил вопрос, хотя и не так далеко, как вы предложили. Я все еще надеюсь, что это достаточно узко сейчас.
Я считаю, что вопрос был сокращен до такой степени, что на него можно было ответить. Просто, почему разработчики теста Autism-Spectrum Quotient дают четыре варианта, если они уменьшают его до двух (согласен или не согласен)?
Почему вы предполагаете, что у математиков с высокими баллами нет синдрома Аспергера или аутизма? В настоящее время высокотехнологичные и ИТ-компании специально набирают высокофункциональных аутистов, потому что они часто лучше разбираются в математике и программировании, чем неаутисты. Возможно, результаты теста просто отражают тот факт, что многие (возможно, субклинические) аутисты выбирают карьеру в области, которая вознаграждает их черты.
@what: Почему вы предполагаете, что у математиков с высокими баллами нет синдрома Аспергера или аутизма? – Где это говорят? То, что меня беспокоит, ошибочен ли тест, не означает, что я считаю все выводы, сделанные по его результатам, неверными. Моя проблема с дизайном теста заключается (если говорить прямо) в том, что он может измерять, является ли кто-то математиком, а не аутистом. Это было бы проблематично, поскольку тест может, например, диагностировать аутизм у неаутичного математика.
@Wrzlprmft «люди с клишированными аутистическими интересами, такими как математика». Очень вероятно, что сходство не «клише», а очень значимое.
@what: Во многих клише есть истина, но это не освобождает их от клише. Не все, кто интересуется математикой, автоматически становятся аутистами. Тем не менее такой человек может быть настроен на то, что он более «аутичен», чем среднее население, и поэтому с большей вероятностью выберет «аутичный» вариант в тесте (потому что он вынужден делать выбор). Но такой прайминг - это то, что вы не хотите отражать тестом (конечно, вы не можете полностью избежать его, но этот тест, кажется, усиливает его).

Ответы (1)

Многие конструктные шкалы разрабатываются с относительно небольшим вниманием к содержанию. Исследователи могут начать с большого набора вопросов-кандидатов, версий, форматов и формулировок, а затем в процессе проверки сузить их до подмножества, которое хорошо коррелирует с конструктом, который они пытаются измерить. Цель состоит в том, чтобы найти баланс между коротким сроком теста и сохранением его прогностической ценности. Во введении Baron-Cohen et al (2001) они отмечают:

AQ, как показано в Приложении, является результатом пилотного тестирования нескольких версий в течение нескольких лет.

Во многих случаях исследователей заботит не то, почему вопросы работают, а то, что они работают.

Сказав это, решение использовать формат принудительного выбора вместо, скажем, рейтинговой шкалы типа Лайкерта с большей детализацией и нейтральным вариантом, может быть политическим:

Ипсативные меры могут быть более полезными для оценки черт внутри человека, тогда как шкалы типа Лайкерта более полезны для оценки черт у разных людей.

Это может сделать меры принудительного выбора желательными для стигматизированных ярлыков, чтобы препятствовать сравнению людей друг с другом:

Поощрение учеников к тому, чтобы они превзошли свои предыдущие оценки, может снять давление со стороны сверстников в ситуациях и устранить элемент соперничества, связанный с ссылками на нормы.

Обратите также внимание на то, что оригинальное исследование подтверждает, что математики получают значительно более высокие баллы по этой шкале, как и следовало ожидать:

... ученые набирают больше баллов, чем неученые; а в естественных науках математика, ученые-физики, компьютерщики и инженеры имеют более высокие баллы, чем более гуманитарные или жизненные науки, такие как медицина (включая ветеринарию) и биология. Этот последний вывод повторяет наши более ранние исследования, обнаружившие связь между состояниями спектра аутизма и профессиями/навыками в области математики, физики и инженерии.

Это говорит о том, что авторы считали вполне допустимым, чтобы математики получали более высокие баллы по своей шкале аутизма (т. е. эта шкала не предназначена для того, чтобы отличать аутистические наклонности математиков от склонностей людей с диагнозом аутизм).

Если я полностью не понял терминологию, тест AS не является ипсативным тестом. Скорее это тест по шкале Лайкерта без нейтрального варианта. Я также не понимаю, какое отношение оценка учеников и превышение предыдущих результатов имеют к тесту AS.
оригинальное исследование подтверждает, что математики получают значительно более высокие баллы по этой шкале, как и следовало ожидать . Конечно, они это делают, но это не устраняет мои сомнения, которые (несколько преувеличены) заключаются в том, что тест разработан таким образом, что небольшие тенденции усиливаются. Например, математик немного согласится с «аутичным» вариантом, потому что он настроен на то, что он несколько более аутичен, чем средний. Поэтому от дизайна теста ожидается высокий балл AS для математиков, который ничего не говорит нам о реальности.
@Wrzlprmft Да, это тест с принудительным выбором (ipsative), сами авторы заявляют об этом в статье. Шкала Лайкерта будет иметь разные оценки для частичного и полного (не)согласия. Я просто указывал на то, что подсчет очков в таких тестах препятствует сравнению пациентов (по сравнению, скажем, с тестами IQ), что может сделать их предпочтительными для диагностических тестов, имеющих потенциально стигматизирующие ярлыки. Авторы не объясняют свое решение так или иначе.
Говоря нам о реальности, это цель проверки (тема слишком велика для этого поста, но см. cogsci.stackexchange.com/questions/9610/… для более подробной информации). Процесс проверки подтвердил, что усиление является ожидаемым и реализованным, и на самом деле говорит нам то, что мы хотим узнать по этой шкале о реальности, т. е. что у математиков действительно есть склонность к аутизму выше среднего. Возможно, вы думаете, что эта шкала должна измерять что-то отличное от того, что, по мнению авторов, она должна измерять.
Что касается предмета проверки: я думаю, что понимаю это. Моя проблема скорее в том, что у теста есть свойства, которые сделают его успешным независимо от желаемых качеств. В качестве простого и вопиющего примера рассмотрим мир, в котором 80 % всех математиков являются аутистами, и наоборот, и рассмотрим тест, который просто спрашивает испытуемого, являются ли они математиками. Этот тест явно ошибочен, но он пройдет базовую проверку.
Да, конечно. Как я уже сказал, это дискуссия выходит за рамки этого вопроса (хотя пост, на который я ссылаюсь, действительно обсуждает этот вопрос — например, ваше утверждение о том, что аутизм и математика — это отдельные конструкции, столь же спорно, как и шкала, которая измеряет математику, когда она предназначен для измерения аутизма!). В любом случае, похоже, вы уже хорошо разбираетесь в проблемах.
выходит за рамки этого вопроса — ну, это более или менее мой центральный вопрос. Тем не менее, я допускаю возможность, что ответ на этот вопрос заключается в том, что тест на самом деле несовершенен в этом отношении.
Ваш вопрос был «Каковы обоснования такого дизайна теста», а не «Является ли этот дизайн теста ошибочным». Если бы ваш вопрос был «Является ли этот дизайн теста ошибочным», то он, вероятно, был бы закрыт, поскольку в основном основан на мнении, что выходит за рамки этого форума. Я подозреваю, что вы думаете, что эта шкала должна измерять что-то отличное от того, что, по мнению авторов, она должна измерять.
Вы правы, фраза «этот тест ошибочен» зашла слишком далеко. Скорее, это было: «учитывался ли этот возможный эффект?» Во всяком случае, я не жалуюсь.