Что такое выборочная дисперсия выборочной дисперсии и что такое теоретическое выборочное распределение?

Я пытаюсь работать с некоторыми вещами в R, и у меня возникают проблемы с пониманием некоторых инструкций.

я сгенерировал 1000 образцы размера 5 из стандартного нормального распределения, и я вычислил среднее значение их выборочной дисперсии. Теперь я хочу знать, какова выборочная дисперсия моей выборки выборочных дисперсий. Но я не уверен, что действительно понимаю, что это значит и как реализовать это в R.

Далее меня просят наложить гистограмму, которую я сгенерировал из своей выборки, на гистограмму теоретической плотности выборочного распределения. Что это значит? То есть, что понимается под теоретической плотностью выборки распределения выборочной дисперсии.

Я знаю, что все мои образцы взяты из стандартного нормаля, где о 2 "=" 1

и я знаю, что если Икс Н "=" Икс 1 + . . . + Икс 1000 было бы Н ( 0 , о 2 1000 ) , это вообще то, о чем идет речь?

Буду признателен за любую помощь и совет. Спасибо

Ответы (1)

Распределение выборочной дисперсии С 2 дан кем-то ( н 1 ) С 2 / о 2 х 2 ( н 1 ) . Я предполагаю, что вас попросили проиллюстрировать эту связь с помощью R. Рассмотрим следующую симуляцию.

 m = 1000;  n = 5;  x = rnorm(m*n)
 DTA = matrix(x, nrow=m)  # each row a sample of size n
 v = apply(DTA, 1, var)   # sample variances of m rows
 hist((n-1)*v, prob=T, col="wheat", ylim=c(0,.2))
   curve(dchisq(x, n-1), lwd=2, col="blue", add=T)
   lines(density((n-1)*v), lwd=2, col="darkgreen")
 mean(v)
 ## 1.003081 
 var(v)
 ## 0.4881987

введите описание изображения здесь

Возможно, это не совсем то, о чем вас просят, но это может указать вам правильное направление. Я наложил кривую плотности на гистограмму. Я не уверен, какую гистограмму можно наложить.

Вероятно, важным сообщением здесь является то, что соответствующее распределение хи-квадрат имеет df = n-1, а не df = n. Вы можете попробовать наложить плотность С час я с д ( 5 ) и вы увидите, что это совсем не соответствует гистограмме.

А д д е н д ты м : Я не знаю, знаете ли вы об оценках плотности, но на всякий случай я также наложил оценку плотности (сглаженную гистограмму) зеленым цветом. Для этого конкретного запуска симуляции теоретическая кривая и оценка плотности согласуются довольно хорошо, но если вы запустите программу несколько раз, вы получите некоторые случаи, в которых совпадение будет не таким хорошим. (Если вы используете m = 10 000, результаты будут более стабильными.)

Пожалуйста, дайте мне знать, если вы можете понять это, чтобы закончить свой проект. Какова дисперсия С час я с д ( 4 ) ? Если вы не знаете, посмотрите статью в Википедии о распределении хи-квадрат.

Дополнение к комментарию от @Quality: Потому что ( н 1 ) С 2 / о 2 С час я с д ( 4 ) , у нас есть В [ 4 С 2 ] "=" 2 ( 4 ) или В ( С 2 ) "=" 8 / 16 "=" 1 / 2 . Также vв программе представлены С 2 , так что не удивительно, что var(v)возвращается 0,488 0,5 в пределах ошибки моделирования. (Поскольку дисперсии имеют квадратную шкалу, предел погрешности моделирования численно больше для дисперсий, чем для средних: несколько дополнительных запусков программы дали значения от 0,47 до 0,59. Используйте для более медленного запуска с большей точностью. m=10^6)

Пока спасибо, да, на данный момент я вычислил sample.var(n=5,N=1000) и среднее значение(sample.var(n=5,N=1000)) просто чтобы посмотреть, что происходит. Кроме того, да, я знаком с квадратом хи и его связью с тем, что у вас было выше. Итак, для некоторых пояснений: желтые кирпичи представляют результаты образцов, а линии - из квадрата хи? Очень ценю.
можешь помочь объяснить это? Например, когда я ищу его, я вижу, что ожидаемое значение хи в квадрате с n степенями свободы равно n, а дисперсия 2n, поэтому не означает ли это, что в моем примере выше ожидаемое значение равно 4?
@Quality: я поставил еще одно «Дополнение» в конце своего ответа, которое, я надеюсь, поможет решить эту проблему.