Онлайн-исследования обещают возможность значительного увеличения числа и изменчивости популяций для изучения, но есть много потенциальных проблем и необходимость проверки, и погружение в голову сначала кажется неосторожным.
Здесь меня интересует возможность сбора данных о времени отклика в режиме онлайн по сравнению со стандартной настройкой компьютера (например, исследование на основе PsychToolbox или E-Prime с вводом данных с клавиатуры, а не ящиком для ответов) в экспериментальной кабине на месте. Хотя у этих исследований есть свои ограничения, например, они не подходят для экспериментов, в которых очень важны данные RT с очень высокой точностью, меня просто интересует, существенно ли отличаются онлайн-исследования от них.
Краткий ответ: данные, вероятно, будут более зашумленными, абсолютному времени реакции нельзя доверять, но при достаточной мощности (которую легко получить в Интернете) относительные различия во времени реакции должны быть аналогичны лабораторным. Однако веб-исследования времени реакции могут создать другие проблемы, потому что у вас меньше контроля над представлением стимулов и поведением участников.
Длинный ответ: есть некоторые исследования, в которых рассматривался сбор данных о времени реакции в Интернете с использованием различных программных подходов. Количество работ невелико, но они сходятся в выводе, что шума будет больше, но он может быть весьма полезен в зависимости от конкретного исследовательского вопроса.
Эффект дополнительного шума
Некоторый шум возникает из-за того, что аппаратное и программное обеспечение сильно различаются «в дикой природе». Например, использование JAVA-апплета Eichstaedt (2001) показало большие различия во времени реакции в зависимости от разных ПК. Некоторые из этих различий между компьютерами основаны на факторах, которые добавляют некоторую константу ко времени реакции на конкретной машине. Эти константы не имеют значения, если вы проводите сравнение времени реакции внутри субъектов, поскольку они распространены в когнитивных парадигмах. Другие факторы добавят случайный шум. Например, некоторые клавиатуры передают ответы только с определенной частотой (например, каждые 20 мс). Таким образом, временное разрешение будет привязано к этому пределу. Кроме того, другие программы, работающие в фоновом режиме, могут создавать случайный шум. Тем не менее, учитывая достаточное количество испытаний и достаточное количество участников, этот случайный шум может стать управляемой помехой.
Фактически, используя моделирование, Бранд и Брэдли (2012) обнаружили, что добавление случайной задержки от 10 до 100 мс ко времени отклика снижает статистическую мощность только на 1-4% в диапазоне различных размеров эффекта.
Исследования, в которых сравнивали время отклика, полученное с помощью онлайн-технологий и лабораторных технологий, позволяют сделать аналогичные выводы. Например, с помощью Flash ScriptingRT Schubert et al. (2013, Исследование 1) показали, что
стандартное отклонение [времени реакции] оставалось ниже 7 мс во всех трех браузерах. Это значение сравнимо со многими обычными клавиатурами и стандартным программным обеспечением по времени реакции. Кроме того, константа, добавленная измерением в ScriptingRT, составила около 60 мс. Этот результат предполагает, что исследователи, использующие ScriptingRT, должны, таким образом, сосредоточиться в первую очередь на различиях между RT и быть осторожными при интерпретации абсолютных задержек.
Из исследования 2:
ScriptingRT привел как к более длительным задержкам ответа, так и к большему стандартному отклонению, чем все другие пакеты, кроме SuperLab и E-Prime, в одной конфигурации. Тем не менее, в абсолютном выражении стандартное отклонение 4,21 сравнимо с тем, что долгое время было стандартом для клавиатур [16]. Таким образом, становится ясно, что любой тест с использованием ScriptingRT должен быть достаточно мощным и использоваться для оценки в основном парадигм с большим размером эффекта.
Аналогичным образом, сравнивая сбор данных на основе JavaScript и Flash, Реймерс и Стюарт (2014) пришли к выводу, что в целом
внутрисистемная надежность была очень хорошей как для Flash, так и для HTML5 — стандартные отклонения измеренного времени отклика и длительности предъявления стимула обычно составляли менее 10 мс. Внешняя валидность была менее впечатляющей, с завышенными оценками времени отклика от 30 до 100 мс, в зависимости от системы. Влияние браузера в целом было небольшим и несистематическим, хотя продолжительность презентации с HTML5 и Internet Explorer, как правило, была больше, чем в других условиях. Точно так же продолжительность стимула и фактическое время ответа были относительно неважными - фактическое время ответа 150, 300 и 600 мс давало аналогичные завышенные оценки.
Репликация когнитивных парадигм с онлайн-образцами
В нескольких статьях использовался онлайн-сбор данных для воспроизведения хорошо известных эффектов, полученных в результате лабораторных исследований.
Например, Шуберт и др. (2013) воспроизвели эффект Струпа с онлайн-против. лабораторных технологий и обнаружили, что размер эффекта не зависит от используемого программного обеспечения. Используя JAVA, Keller et al. (2009) воспроизводят результаты парадигмы самостоятельного чтения из психолингвистической литературы. Наиболее полный проект репликации был опубликован Crump et al. (2013), которые воспроизводят задачи Stroop, Switching, Flanker, Simon, Posner Cuing, моргания внимания, подсознательного прайминга и обучения по категориям на Amazon Mechanical Turk.
Другие проблемы и ограничения
Есть несколько других проблем и ограничений, связанных со сбором данных о времени ответа в режиме онлайн.
использованная литература
Брэнд и Брэдли (2012). Оценка влияния технических отклонений на статистические результаты веб-экспериментов по измерению времени отклика. Компьютерный обзор социальных наук, 30, 350–357. дои: 10.1177/0894439311415604
Крамп, MJC, Макдоннелл, СП, и Гурекис, ТМ (2013). Оценка механического турка Amazon как инструмента экспериментального поведенческого исследования. PLoS ONE, 8, e57410. doi: 10.1371/journal.pone.0057410
Эйхштадт, Дж. (2001). Фильтр неточного времени для измерения времени реакции апплетами JAVA, реализующими интернет-эксперименты. Методы исследования поведения, инструменты и компьютеры, 33, 179–186. дои: 10.3758/BF03195364
Гарайзар, П., Вадильо, М.А., и Лопес-де-Ипинья, Д. (2014). Новый взгляд на точность презентации в Интернете: методы анимации в эпоху HTML5. PLoS ONE, 9, e109812. doi:10.1371/journal.pone.0109812
Келлер Ф., Гунасехаран С., Мэйо Н. и Корли М. (2009). Точность синхронизации веб-экспериментов: тематическое исследование с использованием программного пакета WebExp. Методы исследования поведения, 41, 1–12. дои: 10.3758/BRM.41.1.12
Реймерс, С., и Стюарт, Н. (2014). Точность презентации и времени отклика в веб-экспериментах Adobe Flash и HTML5/JavaScript. Методы исследования поведения, 1–19. дои: 10.3758/s13428-014-0471-1
Шуберт, Т.В., Муртейра, К., Коллинз, ЕС, Лопес, Д. (2013). ScriptingRT: программная библиотека для сбора данных о задержках ответов в онлайн-исследованиях познания. ПЛОС ОДИН 8: e67769. doi:10.1371/journal.pone.0067769
Есть несколько факторов, которые могут способствовать различиям между измерением времени реакции онлайн и в лаборатории.
Аппаратная вариация
Участники онлайн-эксперимента будут использовать свои собственные компьютеры для выполнения задачи, что приведет к множеству различий в оборудовании. Во многих исследованиях изучалось, как изменения аппаратного обеспечения влияют на измерение времени отклика, и в целом было обнаружено, что изменения аппаратного обеспечения могут вызывать различия в диапазоне 10–100 мс для одного отклика (например , Plant & Turner, 2009 ).
Вариант программного обеспечения
Онлайн-исследования и лабораторные исследования, как правило, проводятся с использованием разного программного обеспечения, поскольку большинство стандартных лабораторных программ нельзя использовать для проведения онлайн-экспериментов. Популярным вариантом для онлайн-экспериментов является JavaScript и HTML. Reimers & Stewart (2014) измерили ошибку измерения времени отклика JavaScript и в целом обнаружили, что она составляет около 25 мс, с некоторыми различиями в зависимости от аппаратного и программного обеспечения. де Леу и Мотц (2015)провел эксперимент, в котором испытуемые выполнили задачу визуального поиска в лаборатории, используя как версию эксперимента JavaScript, так и MATLAB (Psychophysics Toolbox), и обнаружили, что JavaScript измерял время отклика, которое было примерно на 25 мс медленнее. Однако и JavaScript, и MATLAB имели эквивалентную дисперсию в измерениях, и обе программные системы были одинаково чувствительны к экспериментальным манипуляциям задачи визуального поиска при размерах выборки, использованных для эксперимента.
Онлайн против лаборатории
Хилбиг (в печати) случайным образом распределил участников для выполнения эксперимента в лаборатории с использованием стандартного лабораторного программного обеспечения (E-prime), в лаборатории с помощью веб-браузера или в Интернете в любом месте по выбору участника. Они измерили время отклика в стандартной задаче на лексическое решение и обнаружили, что между тремя группами не было существенных различий. Эффект был порядка 120-220мс. Эффект относительно велик (d' ~ 1,5), но, учитывая текущую литературу, нет причин сомневаться в том, что он будет.
Это имеет значение?
Последняя часть ответа: имеет ли какое-то значение, если время отклика, полученное в Интернете, больше, чем полученное в лаборатории? Оказывается, даже для довольно шумных измерений умеренные размеры выборки будут противодействовать дополнительному шуму измерения. Реймерс и Стюарт (2014) смоделировали размер выборки, необходимый для определения эффекта в 50 мс с дополнительным шумом во времени отклика, вызванным использованием онлайн-методов, и без него. Они обнаружили, что в их модели требовалось всего на 10% больше субъектов, чтобы иметь эквивалентную вероятность обнаружения эффекта. Ульрих и Гирей (1989) пришли к такому же выводу в другом контексте моделирования.
использованная литература
Мы рассказываем об этом в статье, которую отправили на рецензирование. Вот препринт .
Я процитирую этот вопрос/ответы stackExchange в рукописи (сейчас опубликуйте рецензирование), так как ведутся прекрасные дискуссии, и, несомненно, за ними последуют другие.
Косвенно относящимся к этому обсуждению является моделирование, которое мы сделали в статье, исследуя, как незнание обновления экрана влияет на синхронизацию стимула (учитывайте, что если RT начинает записываться с предъявления стимула, ошибка во времени стимула смешивается с RT):
Мы проверили эту проблему внешнего вида в моделировании, в котором мы варьировали продолжительность визуального стимула, начиная со случайного момента во время цикла обновления (10 000 виртуальных презентаций на длительность стимула). На рис. 5 показана вероятность того, что кратковременные стимулы будут показаны вообще, или будут отображаться неправильно, или начнутся/остановятся в неподходящее время ( https://github.com/andytwoods/refreshSimulation ; доступно для запуска/настройки онлайн здесь ). http://jsfiddle.net/andytwoods/0f56hmaf/ ).
Ниже приведена аннотация:
В этой статье представлен обзор литературы по использованию интернет-тестирования для решения вопросов в исследованиях восприятия. Интернет-тестирование имеет ряд преимуществ по сравнению с лабораторными исследованиями, в том числе возможность охватить относительно широкий круг участников и быстро и недорого собрать большие объемы эмпирических данных. Во многих случаях качество онлайн-данных не уступает качеству, полученному в ходе лабораторных исследований. Вообще говоря, онлайн-участники, как правило, более репрезентативны для населения в целом, чем участники, работающие в лаборатории. Однако есть несколько важных предостережений, когда дело доходит до сбора данных в Интернете. Очевидно, что контролировать точные параметры предъявления стимула (например, характеристики дисплея) в онлайн-исследованиях гораздо сложнее. Есть также некоторые острые этические соображения, которые необходимо учитывать экспериментаторам. Выделены сильные и слабые стороны онлайн-подхода по сравнению с другими, и даны рекомендации для тех исследователей, которые могут подумать о проведении собственных исследований с использованием этого все более популярного подхода к исследованиям в области психологических наук.
В зависимости от того, как вы собираете данные, время реакции, собранное «онлайн», вероятно, будет отличаться от времени реакции, собранного «на месте». При рассмотрении времени реакции важно решить, используется ли время реакции в качестве триггера, времени до ответа или разницы во времени до ответа.
Рассмотрим эксперимент, который отображает случайную серию изображений в течение 1/2 секунды каждое, а анализ состоит в усреднении изображений, которые привели к нажатиям клавиш. Если ваша онлайн-система вводит задержку в 1 с, вы будете усреднять не изображения, которые привели к нажатию клавиши, а случайное изображение после него.
Рассмотрим эксперимент, который отображает случайную серию изображений в течение 1/2 секунды каждый раз, когда отображается целевое изображение, и анализ фокусируется на среднем количестве времени, необходимом для реакции на целевое изображение. В этом случае время вашей реакции будет на 1 секунду больше, чем должно быть, и ваши данные будут фактически бессмысленными.
Рассмотрим эксперимент, который отображает случайную серию изображений в течение 1/2 секунды каждое и время от времени отображается одно из двух целевых изображений, и анализ фокусируется на разнице в среднем количестве времени, необходимом для реакции на целевое изображение. . В этом случае время реакции на каждую цель будет на 1 секунду больше, чем должно быть, но разница в реакции будет точной. Если в этом эксперименте в дополнение к задержке в 1 с имеется также переменная задержка (например, гауссовский джиттер со средним значением, равным 0, и дисперсией, равной 1 с). Этот джиттер добавит шум к данным и затруднит обнаружение небольших различий. Этот шум, однако, будет усредняться по испытаниям и участникам.
Как и в случае с большинством психологических показателей, экспериментатор может торговать точностью измерения, количеством измерений для каждого участника и количеством участников друг против друга. Онлайн-исследования отказываются от точности и, в некоторой степени, от количества измерений для каждого участника для большого количества участников.
В лаборатории с выделенным кнопочным блоком на быстродействующем выделенном аппаратном обеспечении задержки отклика менее 1 мс возможны с крошечными дрожаниями. Это, конечно, игнорирует человеческий субъект, дающий ответ. Вагенмакерс и др. (2005) предполагают, что джиттер в лучшем случае составляет около 100 мс. Добавление джиттера клавиатуры и сети в 100 мс (что было бы довольно плохо) означает, что для онлайн-эксперимента потребуется двукратное увеличение числа испытуемых, чтобы иметь ту же статистическую мощность; если дисперсия в два раза больше (что происходит, когда вы добавляете два независимых источника шума с одинаковой дисперсией), вам нужно в N 2 раза больше, чтобы иметь ту же стандартную ошибку среднего.
АлисаД
АлисаД
Кристиан Хаммелур
Кристиан Хаммелур