Насколько достоверно время реакции, полученное из онлайн-исследований?

Онлайн-исследования обещают возможность значительного увеличения числа и изменчивости популяций для изучения, но есть много потенциальных проблем и необходимость проверки, и погружение в голову сначала кажется неосторожным.

Здесь меня интересует возможность сбора данных о времени отклика в режиме онлайн по сравнению со стандартной настройкой компьютера (например, исследование на основе PsychToolbox или E-Prime с вводом данных с клавиатуры, а не ящиком для ответов) в экспериментальной кабине на месте. Хотя у этих исследований есть свои ограничения, например, они не подходят для экспериментов, в которых очень важны данные RT с очень высокой точностью, меня просто интересует, существенно ли отличаются онлайн-исследования от них.

  • Отличаются ли онлайновые RT от локальных RT внутри задач?
  • Отличается ли теоретический уровень онлайн-РТ в целом от порога РТ на месте?
Отвечает ли это на ваш вопрос? cogsci.stackexchange.com/questions/109/…
Вас интересуют данные диапазона миллисекунд? Или диапазон секунд? В миллисекундном диапазоне интернет и зависимость от двух систем + серверов будут убийственными.
Это не так, но цитата кажется полезной, если я в конечном итоге отвечу на это сам. Вопрос методологический, поэтому я не имею в виду какой-то конкретный диапазон — меня интересует, как онлайн-исследования сравниваются с локальными исследованиями по разным задачам, и в какой момент онлайн-исследования начинают терять точность в целом, и отличается ли эта точка от точки для клавиатуры на основе методов на месте.
Меня также не особенно интересуют сравнения ящиков для ответов (но не совсем безразлично), потому что у большинства людей нет ящиков для ответов дома, так что в любом случае от них мало пользы.

Ответы (4)

Краткий ответ: данные, вероятно, будут более зашумленными, абсолютному времени реакции нельзя доверять, но при достаточной мощности (которую легко получить в Интернете) относительные различия во времени реакции должны быть аналогичны лабораторным. Однако веб-исследования времени реакции могут создать другие проблемы, потому что у вас меньше контроля над представлением стимулов и поведением участников.

Длинный ответ: есть некоторые исследования, в которых рассматривался сбор данных о времени реакции в Интернете с использованием различных программных подходов. Количество работ невелико, но они сходятся в выводе, что шума будет больше, но он может быть весьма полезен в зависимости от конкретного исследовательского вопроса.

Эффект дополнительного шума

Некоторый шум возникает из-за того, что аппаратное и программное обеспечение сильно различаются «в дикой природе». Например, использование JAVA-апплета Eichstaedt (2001) показало большие различия во времени реакции в зависимости от разных ПК. Некоторые из этих различий между компьютерами основаны на факторах, которые добавляют некоторую константу ко времени реакции на конкретной машине. Эти константы не имеют значения, если вы проводите сравнение времени реакции внутри субъектов, поскольку они распространены в когнитивных парадигмах. Другие факторы добавят случайный шум. Например, некоторые клавиатуры передают ответы только с определенной частотой (например, каждые 20 мс). Таким образом, временное разрешение будет привязано к этому пределу. Кроме того, другие программы, работающие в фоновом режиме, могут создавать случайный шум. Тем не менее, учитывая достаточное количество испытаний и достаточное количество участников, этот случайный шум может стать управляемой помехой.

Фактически, используя моделирование, Бранд и Брэдли (2012) обнаружили, что добавление случайной задержки от 10 до 100 мс ко времени отклика снижает статистическую мощность только на 1-4% в диапазоне различных размеров эффекта.

Исследования, в которых сравнивали время отклика, полученное с помощью онлайн-технологий и лабораторных технологий, позволяют сделать аналогичные выводы. Например, с помощью Flash ScriptingRT Schubert et al. (2013, Исследование 1) показали, что

стандартное отклонение [времени реакции] оставалось ниже 7 мс во всех трех браузерах. Это значение сравнимо со многими обычными клавиатурами и стандартным программным обеспечением по времени реакции. Кроме того, константа, добавленная измерением в ScriptingRT, составила около 60 мс. Этот результат предполагает, что исследователи, использующие ScriptingRT, должны, таким образом, сосредоточиться в первую очередь на различиях между RT и быть осторожными при интерпретации абсолютных задержек.

Из исследования 2:

ScriptingRT привел как к более длительным задержкам ответа, так и к большему стандартному отклонению, чем все другие пакеты, кроме SuperLab и E-Prime, в одной конфигурации. Тем не менее, в абсолютном выражении стандартное отклонение 4,21 сравнимо с тем, что долгое время было стандартом для клавиатур [16]. Таким образом, становится ясно, что любой тест с использованием ScriptingRT должен быть достаточно мощным и использоваться для оценки в основном парадигм с большим размером эффекта.

Аналогичным образом, сравнивая сбор данных на основе JavaScript и Flash, Реймерс и Стюарт (2014) пришли к выводу, что в целом

внутрисистемная надежность была очень хорошей как для Flash, так и для HTML5 — стандартные отклонения измеренного времени отклика и длительности предъявления стимула обычно составляли менее 10 мс. Внешняя валидность была менее впечатляющей, с завышенными оценками времени отклика от 30 до 100 мс, в зависимости от системы. Влияние браузера в целом было небольшим и несистематическим, хотя продолжительность презентации с HTML5 и Internet Explorer, как правило, была больше, чем в других условиях. Точно так же продолжительность стимула и фактическое время ответа были относительно неважными - фактическое время ответа 150, 300 и 600 мс давало аналогичные завышенные оценки.

Репликация когнитивных парадигм с онлайн-образцами

В нескольких статьях использовался онлайн-сбор данных для воспроизведения хорошо известных эффектов, полученных в результате лабораторных исследований.

Например, Шуберт и др. (2013) воспроизвели эффект Струпа с онлайн-против. лабораторных технологий и обнаружили, что размер эффекта не зависит от используемого программного обеспечения. Используя JAVA, Keller et al. (2009) воспроизводят результаты парадигмы самостоятельного чтения из психолингвистической литературы. Наиболее полный проект репликации был опубликован Crump et al. (2013), которые воспроизводят задачи Stroop, Switching, Flanker, Simon, Posner Cuing, моргания внимания, подсознательного прайминга и обучения по категориям на Amazon Mechanical Turk.

Другие проблемы и ограничения

Есть несколько других проблем и ограничений, связанных со сбором данных о времени ответа в режиме онлайн.

  • Другой вопрос заключается в точности, с которой стимулы могут быть представлены в Интернете. Будут ограничения на временное разрешение (см., например, Garaizar et al. 2014, Reimers & Stewart, 2014, Schubert et al., 2013) и визуальные различия (цвет и разрешение) в зависимости от оборудования и освещения окружающей среды.
  • Часто онлайн-образцы будут более разнообразными в зависимости от возраста и образования, у некоторых могут возникнуть трудности с пониманием сложных инструкций. Также в онлайн-исследовании проще отказаться от скучных RT-задач, чем в лаборатории (Crump et al., 2013).
  • Аппаратное обеспечение участников может быть перепутано с другими переменными, что может привести к путанице в абсолютном времени реакции, поскольку систематическая константа RT может добавляться к определенным демографическим группам. Это не проблема различий во времени реакции участников. Однако корреляции абсолютного времени реакции с личностными параметрами могут быть ложными (как предупреждали Реймерс и Стюарт (2014)).

использованная литература

Брэнд и Брэдли (2012). Оценка влияния технических отклонений на статистические результаты веб-экспериментов по измерению времени отклика. Компьютерный обзор социальных наук, 30, 350–357. дои: 10.1177/0894439311415604

Крамп, MJC, Макдоннелл, СП, и Гурекис, ТМ (2013). Оценка механического турка Amazon как инструмента экспериментального поведенческого исследования. PLoS ONE, 8, e57410. doi: 10.1371/journal.pone.0057410

Эйхштадт, Дж. (2001). Фильтр неточного времени для измерения времени реакции апплетами JAVA, реализующими интернет-эксперименты. Методы исследования поведения, инструменты и компьютеры, 33, 179–186. дои: 10.3758/BF03195364

Гарайзар, П., Вадильо, М.А., и Лопес-де-Ипинья, Д. (2014). Новый взгляд на точность презентации в Интернете: методы анимации в эпоху HTML5. PLoS ONE, 9, e109812. doi:10.1371/journal.pone.0109812

Келлер Ф., Гунасехаран С., Мэйо Н. и Корли М. (2009). Точность синхронизации веб-экспериментов: тематическое исследование с использованием программного пакета WebExp. Методы исследования поведения, 41, 1–12. дои: 10.3758/BRM.41.1.12

Реймерс, С., и Стюарт, Н. (2014). Точность презентации и времени отклика в веб-экспериментах Adobe Flash и HTML5/JavaScript. Методы исследования поведения, 1–19. дои: 10.3758/s13428-014-0471-1

Шуберт, Т.В., Муртейра, К., Коллинз, ЕС, Лопес, Д. (2013). ScriptingRT: программная библиотека для сбора данных о задержках ответов в онлайн-исследованиях познания. ПЛОС ОДИН 8: e67769. doi:10.1371/journal.pone.0067769

Вау, этот обзор Крампа - настоящая находка.
Говоря о Крампе, QRTEngine утверждает, что был первым пакетом, в котором были получены лучшие результаты Крампа: «Хотя эффекты Струпа и моргания внимания были обнаружены ранее в онлайн-исследованиях (Crump et al., 2013), настоящее исследование, насколько нам известно, , был первым, кто дал результаты, аналогичные эффекту маскированного прайминга, первоначально описанному Эймером и Шлагекеном (2002), [но] с использованием методов, основанных на JavaScript». Их программное обеспечение мертво в воде, но их внутренности (подробно описанные в статье) стоит прочитать.

Есть несколько факторов, которые могут способствовать различиям между измерением времени реакции онлайн и в лаборатории.

Аппаратная вариация

Участники онлайн-эксперимента будут использовать свои собственные компьютеры для выполнения задачи, что приведет к множеству различий в оборудовании. Во многих исследованиях изучалось, как изменения аппаратного обеспечения влияют на измерение времени отклика, и в целом было обнаружено, что изменения аппаратного обеспечения могут вызывать различия в диапазоне 10–100 мс для одного отклика (например , Plant & Turner, 2009 ).

Вариант программного обеспечения

Онлайн-исследования и лабораторные исследования, как правило, проводятся с использованием разного программного обеспечения, поскольку большинство стандартных лабораторных программ нельзя использовать для проведения онлайн-экспериментов. Популярным вариантом для онлайн-экспериментов является JavaScript и HTML. Reimers & Stewart (2014) измерили ошибку измерения времени отклика JavaScript и в целом обнаружили, что она составляет около 25 мс, с некоторыми различиями в зависимости от аппаратного и программного обеспечения. де Леу и Мотц (2015)провел эксперимент, в котором испытуемые выполнили задачу визуального поиска в лаборатории, используя как версию эксперимента JavaScript, так и MATLAB (Psychophysics Toolbox), и обнаружили, что JavaScript измерял время отклика, которое было примерно на 25 мс медленнее. Однако и JavaScript, и MATLAB имели эквивалентную дисперсию в измерениях, и обе программные системы были одинаково чувствительны к экспериментальным манипуляциям задачи визуального поиска при размерах выборки, использованных для эксперимента.

Онлайн против лаборатории

Хилбиг (в печати) случайным образом распределил участников для выполнения эксперимента в лаборатории с использованием стандартного лабораторного программного обеспечения (E-prime), в лаборатории с помощью веб-браузера или в Интернете в любом месте по выбору участника. Они измерили время отклика в стандартной задаче на лексическое решение и обнаружили, что между тремя группами не было существенных различий. Эффект был порядка 120-220мс. Эффект относительно велик (d' ~ 1,5), но, учитывая текущую литературу, нет причин сомневаться в том, что он будет.

Это имеет значение?

Последняя часть ответа: имеет ли какое-то значение, если время отклика, полученное в Интернете, больше, чем полученное в лаборатории? Оказывается, даже для довольно шумных измерений умеренные размеры выборки будут противодействовать дополнительному шуму измерения. Реймерс и Стюарт (2014) смоделировали размер выборки, необходимый для определения эффекта в 50 мс с дополнительным шумом во времени отклика, вызванным использованием онлайн-методов, и без него. Они обнаружили, что в их модели требовалось всего на 10% больше субъектов, чтобы иметь эквивалентную вероятность обнаружения эффекта. Ульрих и Гирей (1989) пришли к такому же выводу в другом контексте моделирования.

использованная литература

  • де Леу, младший, и Мотц, Б.А. (2015). Психофизика в веб-браузере? Сравнение времени отклика, собранного с помощью JavaScript и Psychophysics Toolbox, в задаче визуального поиска. Методы исследования поведения . дои: 10.3758/s13428-015-0567-2
  • Hilbig, BE (в печати). Эффекты времени реакции в лабораторных и сетевых исследованиях: экспериментальные данные. Методы исследования поведения . дои: 10.3758/s13428-015-0678-9
  • Плант, Р., и Тернер, Г. (2009). Психологические исследования с точностью до миллисекунды в мире массовых компьютеров: новое оборудование, новые проблемы? Методы исследования поведения , 41 (3), 598-614.
  • Реймерс, С., и Стюарт, Н. (2014). Точность презентации и времени отклика в веб-экспериментах Adobe Flash и HTML5/JavaScript. Методы исследования поведения
  • Ульрих, Р., и Гирей, М. (1989). Временное разрешение часов: влияние на измерение времени реакции — хорошие новости для плохих часов. Британский журнал математической и статистической психологии , 42 , 1–12.
В настоящее время у меня нет голосов, чтобы повысить этот ответ, но я хотел бы выразить особую благодарность за то, что вы поделились своим резюме неопубликованных данных с правильными деталями (к которым я буду относиться с крайним подозрением, пока он не будет рассмотрен тремя произвольными лиц и надежно заблокированы платным доступом Elsevier). Я с нетерпением жду, чтобы прочитать вашу статью!

Мы рассказываем об этом в статье, которую отправили на рецензирование. Вот препринт .

Я процитирую этот вопрос/ответы stackExchange в рукописи (сейчас опубликуйте рецензирование), так как ведутся прекрасные дискуссии, и, несомненно, за ними последуют другие.

Косвенно относящимся к этому обсуждению является моделирование, которое мы сделали в статье, исследуя, как незнание обновления экрана влияет на синхронизацию стимула (учитывайте, что если RT начинает записываться с предъявления стимула, ошибка во времени стимула смешивается с RT):

Мы проверили эту проблему внешнего вида в моделировании, в котором мы варьировали продолжительность визуального стимула, начиная со случайного момента во время цикла обновления (10 000 виртуальных презентаций на длительность стимула). На рис. 5 показана вероятность того, что кратковременные стимулы будут показаны вообще, или будут отображаться неправильно, или начнутся/остановятся в неподходящее время ( https://github.com/andytwoods/refreshSimulation ; доступно для запуска/настройки онлайн здесь ). http://jsfiddle.net/andytwoods/0f56hmaf/ ).введите описание изображения здесь

Ниже приведена аннотация:

В этой статье представлен обзор литературы по использованию интернет-тестирования для решения вопросов в исследованиях восприятия. Интернет-тестирование имеет ряд преимуществ по сравнению с лабораторными исследованиями, в том числе возможность охватить относительно широкий круг участников и быстро и недорого собрать большие объемы эмпирических данных. Во многих случаях качество онлайн-данных не уступает качеству, полученному в ходе лабораторных исследований. Вообще говоря, онлайн-участники, как правило, более репрезентативны для населения в целом, чем участники, работающие в лаборатории. Однако есть несколько важных предостережений, когда дело доходит до сбора данных в Интернете. Очевидно, что контролировать точные параметры предъявления стимула (например, характеристики дисплея) в онлайн-исследованиях гораздо сложнее. Есть также некоторые острые этические соображения, которые необходимо учитывать экспериментаторам. Выделены сильные и слабые стороны онлайн-подхода по сравнению с другими, и даны рекомендации для тех исследователей, которые могут подумать о проведении собственных исследований с использованием этого все более популярного подхода к исследованиям в области психологических наук.

Добро пожаловать в CogSci, Энди! Это было бы здорово! Чтобы улучшить этот ответ, не могли бы вы добавить краткий обзор вашей недавней публикации?
Я не могу передать вам, как я счастлив, что вы нашли полезную информацию для вашего обзора здесь (и о том, что вы отправили ее для препринта). Со всеми проблемами власти, которые у нас есть в этой области, знание того, когда и насколько мы можем доверять онлайн-исследованиям, будет иметь огромное значение. Основываясь на беглом просмотре, похоже, что я буду читать много статей, которые вы цитируете.
надеюсь этого достаточно.

В зависимости от того, как вы собираете данные, время реакции, собранное «онлайн», вероятно, будет отличаться от времени реакции, собранного «на месте». При рассмотрении времени реакции важно решить, используется ли время реакции в качестве триггера, времени до ответа или разницы во времени до ответа.

Рассмотрим эксперимент, который отображает случайную серию изображений в течение 1/2 секунды каждое, а анализ состоит в усреднении изображений, которые привели к нажатиям клавиш. Если ваша онлайн-система вводит задержку в 1 с, вы будете усреднять не изображения, которые привели к нажатию клавиши, а случайное изображение после него.

Рассмотрим эксперимент, который отображает случайную серию изображений в течение 1/2 секунды каждый раз, когда отображается целевое изображение, и анализ фокусируется на среднем количестве времени, необходимом для реакции на целевое изображение. В этом случае время вашей реакции будет на 1 секунду больше, чем должно быть, и ваши данные будут фактически бессмысленными.

Рассмотрим эксперимент, который отображает случайную серию изображений в течение 1/2 секунды каждое и время от времени отображается одно из двух целевых изображений, и анализ фокусируется на разнице в среднем количестве времени, необходимом для реакции на целевое изображение. . В этом случае время реакции на каждую цель будет на 1 секунду больше, чем должно быть, но разница в реакции будет точной. Если в этом эксперименте в дополнение к задержке в 1 с имеется также переменная задержка (например, гауссовский джиттер со средним значением, равным 0, и дисперсией, равной 1 с). Этот джиттер добавит шум к данным и затруднит обнаружение небольших различий. Этот шум, однако, будет усредняться по испытаниям и участникам.

Как и в случае с большинством психологических показателей, экспериментатор может торговать точностью измерения, количеством измерений для каждого участника и количеством участников друг против друга. Онлайн-исследования отказываются от точности и, в некоторой степени, от количества измерений для каждого участника для большого количества участников.

В лаборатории с выделенным кнопочным блоком на быстродействующем выделенном аппаратном обеспечении задержки отклика менее 1 мс возможны с крошечными дрожаниями. Это, конечно, игнорирует человеческий субъект, дающий ответ. Вагенмакерс и др. (2005) предполагают, что джиттер в лучшем случае составляет около 100 мс. Добавление джиттера клавиатуры и сети в 100 мс (что было бы довольно плохо) означает, что для онлайн-эксперимента потребуется двукратное увеличение числа испытуемых, чтобы иметь ту же статистическую мощность; если дисперсия в два раза больше (что происходит, когда вы добавляете два независимых источника шума с одинаковой дисперсией), вам нужно в N 2 раза больше, чтобы иметь ту же стандартную ошибку среднего.

+1. Очень интересный ответ, но он не совсем удовлетворяет как есть. То, что есть основания подозревать компромисс между точностью и количеством, дается в вопросе, но можно предположить, что стоимость на самом деле настолько мала или постоянна, что ее можно статистически контролировать или игнорировать.
@ChristianHummeluhr Я не совсем понимаю, что вы имеете в виду, но я добавил еще немного о дрожании.
Спасибо. Хотя я обожаю цитирование EJW, боюсь, что я не уверен, какое отношение эта статья имеет к этому вопросу. В документе рассматривается отношение среднего значения к дисперсии данных RT, и в нем не упоминается джиттер или сравнение онлайн с данными на месте. Ссылка правильная?
@ChristianHummeluhr цитата EJW говорит, что дисперсия / дрожание оптимально собранных данных RT достаточно велика, поэтому дополнительная дисперсия / дрожание от онлайн-сбора данных не имеет значения.