Вопросы по интерпретации результатов и оценок факторного анализа

Я пытаюсь изучить факторный анализ, и я подумал, что было бы неплохо попытаться очень плохо «имитировать» вычисление оценок IQ с помощью набора данных фиктивных значений, чтобы «учиться на примерах».

Начнем с того, что я намерен сделать, и я не знаю, правильна ли эта методика или нет: у меня определены нагрузки для этого фактора. Теперь, когда у меня есть загрузки, я хочу сгенерировать оценку для каждого из образцов. Это оставит меня с совокупностью оценок, которые я затем могу стандартизировать около среднего значения 100. Отсюда я нарисую нормальное распределение. Всякий раз, когда я получаю новую выборку, я могу создать для нее оценку и посмотреть, как она попадает в распределение.

Чтобы получить результаты, я использую библиотеку Python Sklearn, в частности FactorAnalysisкласс. Я заметил, что у FactorAnalysisкласса есть score_samples()метод. Выходной балл для каждой выборки представляет собой логарифмическую вероятность выборки.

Вот некоторые из вопросов, которые у меня есть:

  • Является ли мой подход к созданию распределения на основе коэффициентов выборки ошибочным? Как они это делают на практике?

  • Является ли логарифмическая вероятность выборки подходящей оценкой для использования? (Если нет, то какие существуют альтернативные способы оценки выборки?)

  • Я пошел дальше и сгенерировал баллы, используя score_samples()метод для всех образцов, но они колеблются между -4 и -49. Есть ли причина, по которой они будут отрицательными?

  • Если вы ищете только 1 скрытый фактор, является ли хорошей практикой установить количество факторов равным 1 или вы все равно должны оставить его неуказанным?

Вот загрузки, если я оставлю число факторов равным 1:

            Factor 1
variable 1  0.082558
variable 2  0.107940
variable 3  0.199645
variable 4  0.612495
variable 5  0.623707

Вот нагрузки, если не указывать количество факторов:

             Factor 1   Factor 2   Factor 3  Factor 4  Factor 5       
variable 1   0.263914   0.426346  -0.012893   -0.0       0.0
variable 2   0.297078   0.415269  -0.002193    0.0      -0.0
variable 3   0.243590  -0.005131   0.085178   -0.0      -0.0
variable 4   0.487537  -0.224135  -0.019501   -0.0      -0.0
variable 5   0.484462  -0.248173  -0.008902    0.0       0.0

Ответы (1)

Является ли мой подход к созданию распределения на основе коэффициентов выборки ошибочным? Как они это делают на практике?

Я нашел это несколько трудным для понимания. Но в целом вы должны быть в состоянии аппроксимировать набор результатов тестов, используя многомерное нормальное распределение, где ковариационная матрица подразумевает положительную корреляцию между всеми тестами. Некоторые из них могут быть больше, а некоторые меньше, но идея в том, что все тесты способностей взаимосвязаны. А общие умственные способности можно оценить как первый невращающийся фактор, который получается в результате таких тестов.

Является ли логарифмическая вероятность выборки подходящей оценкой для использования? (Если нет, то какие существуют альтернативные способы оценки выборки?)

Это больше похоже на то, как вы оцениваете модель. Например, как вы оцениваете решения факторной аналитики. Как правило, баллы, сохраненные по фактору, представляют собой взвешенную совокупность баллов по компонентным тестам.

В R вы можете использоватьfactanal

factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA,
         subset, na.action, start = NULL,
         scores = c("none", "regression", "Bartlett"),
         rotation = "varimax", control = NULL, ...)

Смотрите scoresаргумент. Есть несколько разных методов.

Я пошел дальше и сгенерировал оценки, используя метод score_samples() для всех образцов, но они колеблются от -4 до -49. Есть ли причина, по которой они будут отрицательными?

Я не знаю Питона. Но, как правило, показатели сохраненных факторов обычно количественно определяются таким образом, что они представляют собой z-показатели (например, среднее = 0, sd = 1).

Если вы ищете только 1 скрытый фактор, является ли хорошей практикой установить количество факторов равным 1 или вы все равно должны оставить его неуказанным?

Вам нужно либо извлечь только один фактор, либо убедиться, что вы не применяете ротацию к факторам извлечения. Без поворота первый фактор будет эквивалентен только одному фактору. При чередовании вариации будут распределены по извлеченным факторам.

Ясно спасибо. Сейчас я использую R, и он намного лучше подходит для факторного анализа. Я полагаю, что единственный вопрос, который у меня остался, это как правильно индексировать баллы? Я провел анализ, и у меня есть оценки факторов, но я не знаю, как их индексировать.
@tear728 по индексу, вы имеете в виду, «как вы их извлекаете и добавляете в свой файл данных?
@Jeremy Anglim, возможно, индекс был неправильным термином. Я имел в виду индекс, как при создании распределения на основе оценок, но затем я заметил в вашем ответе, что оценки факторов являются z-оценками, так что это подойдет. Однако есть еще одна последняя часть, которую мне нужно прояснить. Итак, я провела факторный анализ, нашла нагрузки и оценки факторов для каждой выборки в популяции. Однако, скажем, появляется новая, индивидуальная выборка исходных данных. Как мне правильно оценить этот отдельный образец? Если это поможет, я могу вместо этого задать это как новый вопрос.
Конечно. Возможно, задайте как отдельный вопрос и опубликуйте ссылку здесь, чтобы меня пинговали.
Вот новый вопрос... спасибо за любую помощь: психология.stackexchange.com /questions/20404/…