Как использовать Mechanical Turk для более длительных исследований (например, 30 минут и более)?

Я заинтересован в использовании Mechanical Turk в качестве средства набора участников для онлайн-исследований по психологии. Я никогда не использовал его для каких-либо исследований. Тем не менее, многие из моих исследований занимают от 30 минут до часа. Типичное исследование может включать в себя ответы на набор анкет с использованием Inquisit. У меня сложилось впечатление, что Mechanical Turk лучше всего работает с короткими исследованиями (т. е. от одной до пяти минут).

  • Можно ли использовать Mechanical Turk для более длительного обучения?
  • Есть ли какие-нибудь важные советы по эффективному использованию Mechanical Turk для более длительного обучения?
  • Существуют ли какие-либо учебные пособия или тематические исследования, в которых задокументированы успешные методы использования Mechanical Turk для более длительного обучения?
  • Или, в качестве альтернативы, существуют более эффективные системы для набора платных участников для более длительных онлайн-обучений?

В целом я понимаю, что более длительное обучение потребует гораздо большего вознаграждения, возможно, больше, чем просто кратное количеству времени. Я также предполагаю, что возникнут дополнительные вопросы контроля качества.

Нет никаких реальных ограничений на то, что вы можете сделать для исследования mturk; весь код эксперимента может быть размещен и запущен на ваших собственных серверах.
Какова основная мотивация использования mturk (или вообще онлайн-работы)? Это потому, что вам нужно больше участников, чем вы можете набрать, используя обычные методы? Потому что вы хотите провести длительное исследование, в котором участникам не потребуется каждый день приходить в лабораторию? Какая-то другая причина?
@ofri Я полагаю, что скорость найма и экономическая эффективность являются двумя основными мотивами. Например, если бы я мог заставить 200 добросовестных участников пройти 30-минутное исследование за 5 или 10 долларов США за участника, и все это можно было бы завершить примерно за день или около того, это сделало бы мою жизнь намного проще. mturk управляет оплатой, а также управляет сопоставлением свободного времени с задачами.
@jeff Хорошо, что это возможно, но у меня складывается впечатление, что могут возникнуть дополнительные проблемы с более длительными исследованиями, связанными с мотивацией участников к выполнению задачи в первую очередь и обеспечением их добросовестного выполнения задачи.

Ответы (2)

Я только начал читать о Механическом Турке. Это краткое изложение некоторых советов, которые я нашел. Правда, большая его часть относится к психологическим экспериментам вообще, а не конкретно к более длительным.

Дэвид Шарек обсуждает свой рабочий процесс, который явно включает исследования в диапазоне 30 минут . Таким образом, этот пост является одним из наиболее актуальных для решения вопроса о более длительных исследованиях.

Разнообразные ресурсы

Вот некоторые другие разнообразные ресурсы; см. также ссылки внизу.

  • Взаимодействие Inquisit с другими инструментами
  • TurkGate — это инструмент с открытым исходным кодом, облегчающий использование Mechanical Turk с внешними психологическими экспериментами.
  • Мейсон и Сури (2012) рассматривают потенциальные преимущества, реализацию и этику Mechanical Turk.
  • У Майкла Бурместера есть руководство для социологов . Он описывает свой рабочий процесс при проведении исследований.

Разные блоги, относящиеся к Mechanical Turk, упомянутые Buhrmester

Настройка внешних опросов

Общая модель, по-видимому, состоит в том, чтобы иметь ссылку на внешний сайт (убедитесь, что он открывается в новой вкладке или окне), где проводится опрос, и поле для ввода кода завершения.

Бурместер обсуждает различные системы кодов завершения и выбрал относительно простой вариант, когда участники должны составить 4- или 5-значное число и ввести его как в опрос, так и в mturk. Затем он использует данные временной метки, чтобы проверить исходный завершитель.

Оплата

Мейсон и Сури Стэйт

Однако недавнее исследование поведения рабочих (Chilton et al., 2010) показало, что у рабочих была резервированная заработная плата (наименьшая сумма оплаты, за которую они будут выполнять задание) всего 1,38 доллара в час при средней эффективной почасовой оплате труда. заработная плата в размере 4,80 доллара США для рабочих (Ipeirotis, 2010a).

С точки зрения взаимосвязи между оплатой и качеством работника они ссылаются на исследования, предполагающие, что существует первоначальная положительная взаимосвязь, которая выравнивается в определенный момент, так что в определенный момент дополнительная оплата не улучшает производительность. Затем Массон и Сури предлагают:

Следовательно, часто рекомендуется начинать с выплаты меньше ожидаемой резервной заработной платы, а затем повышать заработную плату, если уровень выполненной работы слишком низок.

Точно так же заработная плата до определенного момента должна увеличить скорость сбора данных.

Отказ от хитов

Что касается отказа от хитов, Майкл просто принял все хиты. Это может быть проще, чем пытаться выяснить, какие хиты являются законными. Это также имело смысл, учитывая, что он часто платил всего 10 центов за участника за 10-минутные эксперименты. Это также имеет то преимущество, что не наносит ущерба вашей репутации.

Гарантия качества

Здесь есть две проблемы. Завершил ли участник исследование вообще? И завершили ли они исследование должным образом (например, примерили задание на выполнение, правильно прочитали инструкции и т. д.)?

Общий подход состоит в том, чтобы включить дополнительные средства для обнаружения сомнительных данных. Если таких участников просто отфильтровать, то они не испортят окончательный набор данных.

Несколько идей:

  • показатели времени реакции на уровне элемента
  • шаблоны ответов на негативные и позитивно сформулированные вопросы
  • повторять элементы, которые должны давать идентичные ответы
  • показатели эффективности
  • Включите очень простые вопросы «верно-ложно» (например, 2+2; кто является президентом Соединенных Штатов); Мейсон и Сури упоминают, что из 500 ответов только шесть ответили неправильно, а трое не ответили.

Бурместер делает причинно-следственное наблюдение, что качество ответов может варьироваться в зависимости от страны респондентов, поэтому, например, ограниченное участие участников из США является одним из грубых способов фильтрации качества.

Управление репутацией запрашивающего

Бурместер упоминает о принятии всех совпадений как для простоты, так и для управления репутацией.

Мейсон и Сури (2012) обсуждают, как обсуждается и отслеживается репутация на внешних сайтах.

Turkopticon — это сайт, который позволяет работникам оценивать заказчиков по четырем осям: коммуникабельность, щедрость, справедливость и оперативность. Turker Nation — это онлайн-доска объявлений, где сотрудники регулярно комментируют запросы и сообщают об отдельных HIT. Настоятельно рекомендуется, чтобы новые запрашивающие лица «представляли» себя сообществу Mechanical Turk, сначала размещая сообщения в Turker Nation, прежде чем размещать HIT.

использованная литература

  • Рэнд, Д.Г. (2012). Обещание Mechanical Turk: как онлайн-рынки труда могут помочь теоретикам проводить поведенческие эксперименты. Журнал теоретической биологии, 299, 172-179.
  • Бурместер, М., Кванг, Т., и Гослинг, С.Д. (2011). Механический турок Amazon: новый источник недорогих, но качественных данных? Перспективы психологической науки, 6 (1), 3-5.
  • Мейсон, В., и Сури, С. (2012). Проведение поведенческих исследований на Amazon Mechanical Turk. Методы исследования поведения, 44(1), 1-23.
  • Беринский, А.Дж., Хубер, Г.А., и Ленц, Г.С. (2011). Использование Mechanical Turk в качестве инструмента набора субъектов для экспериментальных исследований. Отправлено на рассмотрение.
  • Беринский, А.Дж., Хубер, Г.А., и Ленц, Г.С. (2012). Оценка онлайн-рынков труда для экспериментальных исследований: Amazon. механический турок кома. Политический анализ, 20(3), 351-368.

Вы можете взглянуть на SurveyComet.com и TurkPrime.com . Оба предлагают довольно хороший набор инструментов для проведения внешних опросов (например, на Qualtrics и SurveyMonkey) и позволяют создавать последующие опросы, исключать предыдущих сотрудников, иметь определенные демографические панели и многое другое.

Длинный опрос можно разбить на две части. Запустите часть 1, а затем часть 2 в качестве продолжения, которое будет открыто только для тех, кто принял участие в части 1.

Отказ от ответственности: я являюсь частью команды разработчиков программного обеспечения и в настоящее время работаю над этими сайтами.

Беглый взгляд показывает, что цены кажутся разумными. Мне было бы любопытно узнать: (а) какая часть участников склонна добросовестно заполнять более длинные опросы, т. е. не пропуская вопросы и не отвечая на них случайным образом; (б) можете ли вы использовать внешние инструменты, требующие установки подключаемого модуля — в частности, Inquisit — мощный инструмент для проведения онлайн-психологических экспериментов, но он требует от пользователя установки подключаемого модуля.
A. Рабочие SurveyComet контролируются для обеспечения высокой степени надежности, а внутренние тесты показали, что случайные отправки редки (<1%). B. Mechanical Turk не позволяет запрашивающим лицам просить работников устанавливать программы, поэтому использование inquisit является нарушением условий обслуживания Amazon.
@JeromyAnglim Хотя вы можете обойти требование Условий обслуживания MTurk, заявив, что HIT открыт только для работников, которые ранее загрузили Inquisit. Так что загрузка не является частью HIT.