Управление трудностью угадывания корреляции

Я пытаюсь создать корреляции между случайными величинами (двумерными) с определенной линейной зависимостью (в р смысле), но с разными визуальными паттернами при нанесении на график. Я пытаюсь создать задачу «угадать корреляцию», в которой я могу систематически манипулировать сложностью для наблюдателя, чтобы угадать линейную связь.

То, что я делаю сейчас, имеет корреляцию р Я генерирую первое и второе значения, Икс 1 и Икс 2 , с н выборки из стандартного нормального распределения. Затем оттуда я делаю Икс 3 линейная комбинация двух Икс 3 знак равно р Икс 1 + 1 р 2 Икс 2

Затем: Д 1 знак равно мю 1 + о 1 Икс 1 , Д 2 знак равно мю 2 + о 2 Икс 3

И сейчас Д 1 и Д 2 иметь корреляцию р .

Для управления сложностью я играл с параметрами распределения и н , однако, я не удовлетворен результатами.

Любая идея о том, как систематически увеличивать сложность задачи? (например, добавление выбросов и т. д.).

Примечание. Сложность — это когнитивный/психологический вопрос, а не статистический. Я намерен проверить понятие сложности эмпирически (т. е. при определенной комбинации параметров люди склонны работать хуже). Идея состоит в том, чтобы генерировать графики с различными параметрами для заданного значения корреляции (т. е. изменение количества точек, дисперсии, выброса, функциональной формы и т. д.). Каковы параметры и как систематически ими манипулировать.

Несмотря на то, что намерения носят познавательный характер, а мне очень нравится вопрос, я верю, что у вас больше шансов найти ответ на перекрестной проверке . Я отмечу вопрос и посмотрю, смогут ли модераторы перенести его. Тогда вопрос там по-прежнему будет связан с этим веб-сайтом, что облегчит его поиск.
@ Робин, я в некоторой степени не согласен. Вопрос в том, как усложнить когнитивную задачу угадывания корреляции по точечной диаграмме. Возможно, у людей, занимающихся статистикой, есть понимание, но я думаю, что это также больше психологический вопрос.
Я полагаю, вы знаете об этом? угадайкорреляцию.com
@JeromyAnglim Вы правы. Я прочитал вопрос как «как вы имитируете корреляции?», Думая, что это больше похоже на вопрос о кодировании.

Ответы (1)

Вероятно, вам потребуется провести пробное тестирование, чтобы определить сложность данной корреляционной задачи.

После пилотного тестирования вам нужно будет количественно оценить сложность задачи. Одним из вариантов может быть среднее расхождение между фактической и предсказанной корреляцией. Однако будут и другие показатели как степени ошибки, так и сложности.

Я бы предположил, что самые простые корреляции, основанные на диаграммах рассеяния, — это сильные линейные зависимости, включающие двумерные нормальные распределения и большое количество данных (например, n > 1000).

Есть целая куча вещей, которые вы могли бы попробовать усложнить задачу. Вот что приходит мне на ум:

  • Выбросы (как выбросы, увеличивающие корреляцию, так и выбросы, уменьшающие корреляцию); варьировать количество выбросов в конкретном регионе; объединять выбросы, увеличивающие и уменьшающие корреляцию; сделать выбросы еще более экстремальными
  • Нелинейные отношения (например, сочетание линейных и других функций, таких как квадратичные, циклические, ступенчатые, степенные функции, логистические функции, круговые и т. д.)
  • бимодальные распределения по одной или обеим переменным
  • Сильно асимметричные распределения по одной или обеим переменным
  • Меньше точек данных
  • данные, которые дают корреляции только немного выше или ниже нуля
  • где есть функция, подобная квадратичной, сделать так, чтобы x зависел от y, а не y зависел от x.

В более общем плане я думаю, что практика и эффекты обратной связи также будут иметь значение. То есть, может быть уместно установить, соответствуют ли различия в сложности новичков также относительным различиям в сложности участников, которые были ознакомлены с полным набором элементов, которые вы создали.