Я читал некоторые базовые тексты по машинному обучению, где вы строите гауссову модель генеративного процесса из вектора доступных точек данных. Чтобы дать контексты и обозначения, предположим, являются независимыми доступными точками данных из распределения Гаусса. Вы должны оценить (среднее) и (стандартное отклонение) от этих известных точек данных.
Используя некоторую оценку максимального правдоподобия, мы можем сказать, что проблема в основном
Но меня интересует более общий вопрос, где я вычисляю совместную плотность вероятности и учитывая точки данных? Есть ли способ вычислить
Конечно, мы везде предполагаем, что лежащий в основе генеративный процесс является гауссовым, но я застрял на PDF-файлах. Нужны ли мне дополнительные предположения, чтобы ответить на этот вопрос?
Стандартная теория распределения для этой модели с случайная выборка из как следует:
обозначает распределение хи-квадрат с указанными степенями свободы, и обозначает распределение Стьюдента с указанными степенями свободы. Вы можете найти формальные распределения и функции плотности этих распределений на соответствующих страницах Википедии.
Первое отображаемое отношение чаще всего используется, когда известно и должен быть оценен Второе соотношение чаще всего используется, когда известно и должен быть оценен Эти взаимосвязи легко показать с помощью стандартных формул вероятности, производящих функций моментов и определения распределения хи-квадрат.
Последние два отображали взаимосвязь и независимость и часто используются, когда оба и неизвестны. Тогда обычно, оценивается к и к (Несмотря на то Доказательства более сложны и обсуждаются в текстах по математической статистике.
Для особого случая моделирование в статистическом программном обеспечении R 100 000 выборок предполагает (но, конечно, не доказывает), что и что и являются независимыми. Код под рисунком также иллюстрирует и в пределах погрешности моделирования (точность до двух, возможно, трех значащих цифр).
set.seed(3218) # retain for exactly same simulation; delete for fresh run
m = 10^5; n = 5; mu = 100; sg = 10
MAT = matrix(rnorm(m*n, mu, sg), nrow=m) # m x n matrix: 10^5 samples of size 4
a = rowMeans(MAT) # m sample means (averages)
s = apply(MAT, 1, sd); q = (n-1)*s^2/sg^2 # m sample SD's and values of Q
mean(a)
## 100.0139 # aprx E(x-bar) = 100
mean(s); mean(s^2)
## 9.412638 # aprx E(S) < 10
## 100.3715 # aprx E(S^2) = 100
cor(a, s)
## -0.00194571 # approx r = 0
par(mfrow=c(1,3)) # enable 3 panels per plot
hist(a, prob=T, col="skyblue2", xlab="Sample Mean", main="Normal Dist'n of Sample Mean")
curve(dnorm(x, mu, sg/sqrt(n)), add=T, lwd=2, col="red")
hist(q, prob=T, col="skyblue2", ylim=c(0,.18), xlab="Q", main="CHISQ(4)")
curve(dchisq(x, n-1), add=T, lwd=2, col="red")
plot(a, s, pch=".", xlab="Sample Means", ylab="Sample SD", main="Illustrating Indep")
par(mfrow=c(1,1))
БрюсЕТ