Как следует обрабатывать несколько субъектов исследования Mechanical Turk с одного и того же IP-адреса?

Я увидел этот вопрос в Твиттере от Джея Ван Бавела (@jayvanbavel) и подумал, что он хорошо подходит для сайта.

Кто-нибудь находит в своих данных #MTurk несколько субъектов с одного и того же IP-адреса? Как вы решаете эту проблему? Цитаты приветствуются.

Таким образом, перефразируя:

  • Что это значит, если у вас есть два или более участников исследования Mechanical Turk с одним и тем же IP-адресом?
  • Какова общая стратегия работы с такими случаями?
  • Есть ссылки на обсуждение вопроса?
Этот вопрос совсем не по теме
@MartinKällman Почему вы так говорите, это определенно важная часть современной методологии исследований в когнитивных науках.

Ответы (2)

Поскольку это относительно новая проблема для исследователей поведения, я не знаю, существует ли общий консенсус. Я нашел две статьи, одна из которых была исследованием, в котором использовался краудсорсинг для медицинских пиктограмм.

Их подход был следующим:

Во-первых, мы проверили наличие повторяющихся записей. Отсортировав данные по IP-адресам участников, мы нашли три пары ответов с одинаковым IP-адресом. В двух парах интерпретации пиктограмм и ответы демографического опроса были почти идентичными, но даты участия были разными. Мы посчитали их дубликатами и оставили в файле только первую запись каждого из них.

От:

Ю Б., Уиллис М., Сун П., Ван Дж. (2013) Краудсорсинговая совместная оценка медицинских пиктограмм с использованием Amazon Mechanical Turk J Med Internet Res, 15 (6): e108 [БЕСПЛАТНО] [DOI]

В статье, опубликованной в этом месяце, эта тема рассматривается в более общих чертах, и предлагаются некоторые статистические данные о том, как часто это может происходить, и о некоторых причинах этого.

Хотя работники могут иметь более одной одновременной учетной записи MTurk и, следовательно, более одного WorkerID, это редкость. Amazon активно работает над выявлением и устранением дубликатов учетных записей. Что еще более важно, заказчики часто ограничивают прибыльные HIT работниками, которые в прошлом выполнили большой объем высококачественной работы.

Таким образом, кажется, что WorkerID можно использовать в качестве уникального идентификатора, и Amazon действительно проверяет наличие дубликатов учетных записей, устраняя некоторый риск дублирования респондентов в одном и том же исследовании.

Что касается IP-адресов, статья дает некоторое представление о масштабах проблемы:

Проверка IP-адресов работников обычно выявляет незначительное меньшинство работников (около 2,5 %; Berinsky et al., 2012**), которые отправляют HIT с одного и того же IP-адреса, что часто может быть результатом того, что работники являются отдельными членами одного домохозяйства.

От:

Чендлер, Дж., Мюллер, П., Паолаччи, Г. (2013). Ненаивность среди работников Amazon Mechanical Turk: последствия и решения для исследователей поведения. Методы исследования поведения, опубликовано в Интернете 9 июля 2013 г. [DOI]

В первой статье указывалось на тот факт, что удаление данных из исследования, основанного на дублировании IP-адресов, может быть выполнено без особых затрат.

Можно использовать и другие демографические факторы, чтобы определить, разные ли это люди, но точность этих ответов не гарантируется, но может быть подкреплена наличием зависимости между демографическими категориями (например, запись пола и последнего менструального цикла должна быть последовательной).

Результаты следует проверять более тщательно для пользователей с одним и тем же IP-адресом, так как даже если они являются разными членами семьи, они могут делиться набором ответов, но кажется, что включение данных от тех, у кого совпадающие IP-адреса.

** Ссылка на статью Беринского, включенную в работу Chandler 2013, выглядит следующим образом: Berinsky, AJ, Huber, GA, & Lenz, GS (2012). Оценка онлайн-рынков труда для экспериментальных исследований: механический турок Amazon.com. Политический анализ, 20 (3), 351–368. [DOI] Я не проверял эту работу

Я отвечу только на первый из трех ваших подвопросов, на остальные ответил Чак Шеррингтон.

  • Что это значит, если у вас есть два или более участников исследования Mechanical Turk с одним и тем же IP-адресом?

IP-адреса редко «привязываются» к отдельному компьютеру. Каждый провайдер имеет диапазон доступных IP-адресов и назначает их компьютерам при их подключении к сети. Каждый раз, когда вы загружаете свой компьютер, каждый раз, когда вы подключаетесь к сети WLAN, у вас, вероятно, будет другой IP-адрес. Попробуйте это с помощью такого инструмента, как http://whatismyipaddress.com .

Поэтому, конечно же, IP-адрес, который у вас был вчера, завтра будет присвоен кому-то другому. Это всего лишь означает, что оба компьютера были подключены через одного и того же провайдера. Никаких других выводов по IP-адресу сделать нельзя!

(Только комбинация IP-адреса и времени подключения уникальна для вашего компьютера. Ваш провайдер хранит данные о вашем подключении в течение установленного законом периода, и в течение этого времени полиция сможет идентифицировать ваш компьютер, если им известно время подключения, но этих данных нет в открытом доступе.)

Обычно IP-адреса остаются стабильными в течение сеанса, но вы даже не можете полагаться на это. DSL-соединения часто сбрасываются раз в 24 часа, поэтому, если вы находитесь в сети ночью, вы можете столкнуться с потерей сетевого соединения, и после этого у вас, скорее всего, будет другой IP-адрес. Мобильные соединения разъединяются гораздо чаще, и ваш IP-адрес будет меняться так же часто. Таким образом, если вы сохраните IP-адрес пользователя в начале опроса и еще раз в конце, оба могут отличаться! Это будет особенно актуально для пользователей, использующих инструменты анонимизации, такие как сеть TOR, которые запрограммированы на регулярную смену IP-адресов.

Вы не можете надежно идентифицировать один компьютер по IP-адресу. Используйте для этого файлы cookie или полагайтесь на указанные пользователем данные.


См. https://en.wikipedia.org/wiki/IP_address#IP_address_assignment