Рассчитать распределение среднего и дисперсии с учетом точек данных Гаусса

Я читал некоторые базовые тексты по машинному обучению, где вы строите гауссову модель генеративного процесса из вектора доступных точек данных. Чтобы дать контексты и обозначения, предположим, Икс 1 , Икс 2 , Икс н е р являются независимыми доступными точками данных из распределения Гаусса. Вы должны оценить мю (среднее) и о > 0 (стандартное отклонение) от этих известных точек данных.

Используя некоторую оценку максимального правдоподобия, мы можем сказать, что проблема в основном

Макс мю , о я "=" 1 н ф г ( Икс я )
где ф г ( Икс я ) является гауссовской PDF со средним значением и стандартным отклонением. Решение простое, только среднее значение и стандартное отклонение точек данных дают оптимум.

Но меня интересует более общий вопрос, где я вычисляю совместную плотность вероятности мю и о учитывая точки данных? Есть ли способ вычислить

ф ( мю , о Икс 1 , Икс 2 , , Икс н ) "=" Ф ( мю , о , Икс 1 , Икс 2 , , Икс н ) ф ( Икс 1 , Икс 2 , , Икс н )

Конечно, мы везде предполагаем, что лежащий в основе генеративный процесс является гауссовым, но я застрял на PDF-файлах. Нужны ли мне дополнительные предположения, чтобы ответить на этот вопрос?

Параметры мю и о являются неизвестными константами, поэтому (в отсутствие байесовского контекста) я не уверен, как интерпретировать ваше последнее отображаемое уравнение. Я думаю, вы хотели запросить PDF-файлы с оценками , а не с параметрами. Я попытался дать некоторую соответствующую информацию о распространении в своем ответе, чтобы направить вас на правильный путь.

Ответы (1)

Стандартная теория распределения для этой модели с Икс 1 , Икс 2 , , Икс н случайная выборка из Н о р м ( мю , о ) как следует:

Икс ¯ Н о р м ( мю , о / н ) ,
я "=" 1 н ( Икс я мю ) 2 о 2 С час я с д ( н ) ,
( н 1 ) С 2 о 2 С час я с д ( н 1 ) ,
Т "=" Икс ¯ мю С / н Т ( н 1 ) ,
где Икс ¯ "=" 1 н я "=" 1 н Икс я , Е ( Икс ¯ ) "=" мю ; С 2 "=" 1 н 1 я "=" 1 н ( Икс я Икс ¯ ) , Е ( С 2 ) "=" о 2 . И, наконец, для обычных данных (только) Икс ¯ и С 2 являются стохастически независимыми случайными величинами, хотя и не независимыми функционально.

С час я с д обозначает распределение хи-квадрат с указанными степенями свободы, и Т обозначает распределение Стьюдента с указанными степенями свободы. Вы можете найти формальные распределения и функции плотности этих распределений на соответствующих страницах Википедии.

Первое отображаемое отношение чаще всего используется, когда о известно и мю должен быть оценен Икс ¯ . Второе соотношение чаще всего используется, когда мю известно и о 2 должен быть оценен 1 н я "=" 1 н ( Икс я мю ) 2 . Эти взаимосвязи легко показать с помощью стандартных формул вероятности, производящих функций моментов и определения распределения хи-квадрат.

Последние два отображали взаимосвязь и независимость Икс ¯ и С 2 часто используются, когда оба мю и о неизвестны. Тогда обычно, мю оценивается С ¯ , о к С 2 , и о к С (Несмотря на то Е ( С ) < о ) . Доказательства более сложны и обсуждаются в текстах по математической статистике.


Для особого случая н "=" 5 , мю "=" 100 , о "=" 10 моделирование в статистическом программном обеспечении R 100 000 выборок предполагает (но, конечно, не доказывает), что Икс ¯ Н о р м ( мю , о н ) , Вопрос "=" ( н 1 ) С 2 о 2 С час я с д ( 4 ) и что Икс ¯ и С являются независимыми. Код под рисунком также иллюстрирует Е ( Икс ¯ ) "=" 100 , Е ( С ) < 10. Е ( С 2 ) "=" 100 , и р "=" 0 , в пределах погрешности моделирования (точность до двух, возможно, трех значащих цифр).

введите описание изображения здесь

set.seed(3218)  # retain for exactly same simulation; delete for fresh run
m = 10^5;  n = 5;  mu = 100;  sg = 10
MAT = matrix(rnorm(m*n, mu, sg), nrow=m)  # m x n matrix: 10^5 samples of size 4
a = rowMeans(MAT)   # m sample means (averages)
s = apply(MAT, 1, sd);  q = (n-1)*s^2/sg^2  # m sample SD's and values of Q
mean(a)
## 100.0139     # aprx E(x-bar) = 100
mean(s);  mean(s^2)    
## 9.412638     # aprx E(S) < 10
## 100.3715     # aprx E(S^2) = 100
cor(a, s)
## -0.00194571  # approx r = 0

par(mfrow=c(1,3))  # enable 3 panels per plot
hist(a, prob=T, col="skyblue2", xlab="Sample Mean", main="Normal Dist'n of Sample Mean")
  curve(dnorm(x, mu, sg/sqrt(n)), add=T, lwd=2, col="red")
hist(q, prob=T, col="skyblue2", ylim=c(0,.18), xlab="Q", main="CHISQ(4)")
  curve(dchisq(x, n-1), add=T, lwd=2, col="red")
plot(a, s, pch=".", xlab="Sample Means", ylab="Sample SD", main="Illustrating Indep")
par(mfrow=c(1,1))