Рассчитать распределение среднего и дисперсии с учетом точек данных Гаусса

Question

Рассчитать распределение среднего и дисперсии с учетом точек данных Гаусса

статистика
Математика
максимальное правдоподобие
нормальное распределение
распределения вероятностей

Делла

Я читал некоторые базовые тексты по машинному обучению, где вы строите гауссову модель генеративного процесса из вектора доступных точек данных. Чтобы дать контексты и обозначения, предположим, $x_1, x_2, x_n\in\mathbb{R}$ являются независимыми доступными точками данных из распределения Гаусса. Вы должны оценить $\mu$ (среднее) и $\sigma>0$ (стандартное отклонение) от этих известных точек данных.

Используя некоторую оценку максимального правдоподобия, мы можем сказать, что проблема в основном

\underset{мю, о}{Макс} \prod_{я "=" 1}^{н} ф_{г} ({Икс}_{я})

$\max_{\mu, \sigma}\prod_{i=1}^nf_G(x_i)$ где

f_{G} (x_{i})

$f_G(x_i)$ является гауссовской PDF со средним значением и стандартным отклонением. Решение простое, только среднее значение и стандартное отклонение точек данных дают оптимум.

Но меня интересует более общий вопрос, где я вычисляю совместную плотность вероятности $\mu$ и $\sigma$ учитывая точки данных? Есть ли способ вычислить

ф (мю, о ∣ {Икс}_{1}, {Икс}_{2}, \dots, {Икс}_{н}) "=" \frac{Ф (мю, о, {Икс}_{1}, {Икс}_{2}, \dots, {Икс}_{н})}{ф ({Икс}_{1}, {Икс}_{2}, \dots, {Икс}_{н})}

$f(\mu, \sigma \mid x_1, x_2, \cdots, x_n)=\frac{F(\mu, \sigma,x_1, x_2, \cdots, x_n)}{f(x_1, x_2, \cdots, x_n)}$

Конечно, мы везде предполагаем, что лежащий в основе генеративный процесс является гауссовым, но я застрял на PDF-файлах. Нужны ли мне дополнительные предположения, чтобы ответить на этот вопрос?

БрюсЕТ

Параметры

μ

$\mu$ и

σ

$\sigma$ являются неизвестными константами, поэтому (в отсутствие байесовского контекста) я не уверен, как интерпретировать ваше последнее отображаемое уравнение. Я думаю, вы хотели запросить PDF-файлы с оценками , а не с параметрами. Я попытался дать некоторую соответствующую информацию о распространении в своем ответе, чтобы направить вас на правильный путь.

Ответы (1)

Рассчитать распределение среднего и дисперсии с учетом точек данных Гаусса

Параметры $\mu$ и $\sigma$ являются неизвестными константами, поэтому (в отсутствие байесовского контекста) я не уверен, как интерпретировать ваше последнее отображаемое уравнение. Я думаю, вы хотели запросить PDF-файлы с оценками , а не с параметрами. Я попытался дать некоторую соответствующую информацию о распространении в своем ответе, чтобы направить вас на правильный путь.

БрюсЕТ · Answer 1

Стандартная теория распределения для этой модели с $X_1, X_2, \dots, X_n$ случайная выборка из $\mathsf{Norm}(\mu, \sigma)$ как следует:

\bar{Икс} \sim Н о р м (мю, о / \sqrt{н}),

$\bar X \sim \mathsf{Norm}(\mu, \sigma/\sqrt{n}),$

\frac{\sum_{я "=" 1}^{н} ({Икс}_{я} - мю)^{2}}{о^{2}} \sim С час я с д (н),

$\frac{\sum_{i=1}^n(X_i - \mu)^2}{\sigma^2} \sim \mathsf{Chisq}(n),$

\frac{(н - 1) С^{2}}{о^{2}} \sim С час я с д (н - 1),

$\frac{(n-1)S^2}{\sigma^2} \sim \mathsf{Chisq}(n-1),$

Т "=" \frac{\bar{Икс} - мю}{С / \sqrt{н}} \sim Т (н - 1),

$T = \frac{\bar X - \mu}{S/\sqrt{n}} \sim \mathsf{T}(n-1),$ где

\bar{X} = \frac{1}{n} \sum_{i = 1}^{n} X_{i},

$\bar X = \frac 1 n \sum_{i=1}^n X_i,\,$

E (\bar{X}) = μ;

$E(\bar X) = \mu;\,$

S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \bar{X}),

$S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X),\,$

E (S^{2}) = σ^{2} .

$E(S^2) = \sigma^2.$ И, наконец, для обычных данных (только)

\bar{X}

$\bar X$ и

S^{2}

$S^2$ являются стохастически независимыми случайными величинами, хотя и не независимыми функционально.

$\mathsf{Chisq}$ обозначает распределение хи-квадрат с указанными степенями свободы, и $\mathsf{T}$ обозначает распределение Стьюдента с указанными степенями свободы. Вы можете найти формальные распределения и функции плотности этих распределений на соответствующих страницах Википедии.

Первое отображаемое отношение чаще всего используется, когда $\sigma$ известно и $\mu$ должен быть оценен $\bar X.$ Второе соотношение чаще всего используется, когда $\mu$ известно и $\sigma^2$ должен быть оценен $\frac 1 n \sum_{i=1}^n(X_i - \mu)^2.$ Эти взаимосвязи легко показать с помощью стандартных формул вероятности, производящих функций моментов и определения распределения хи-квадрат.

Последние два отображали взаимосвязь и независимость $\bar X$ и $S^2$ часто используются, когда оба $\mu$ и $\sigma$ неизвестны. Тогда обычно, $\mu$ оценивается $\bar S,\,$ $\sigma$ к $S^2,\,$ и $\sigma$ к $S$ (Несмотря на то $E(S) < \sigma).$ Доказательства более сложны и обсуждаются в текстах по математической статистике.

Для особого случая $n = 5,\, \mu = 100,\, \sigma=10$ моделирование в статистическом программном обеспечении R 100 000 выборок предполагает (но, конечно, не доказывает), что $\bar X \sim \mathsf{Norm}(\mu, \frac{\sigma}{\sqrt{n}}),\,$ $Q = \frac{(n-1)S^2}{\sigma^2} \sim \mathsf{Chisq}(4)$ и что $\bar X$ и $S$ являются независимыми. Код под рисунком также иллюстрирует $E(\bar X) = 100,\,$ $E(S) < 10.\,$ $E(S^2) = 100,$ и $r = 0,$ в пределах погрешности моделирования (точность до двух, возможно, трех значащих цифр).

set.seed(3218)  # retain for exactly same simulation; delete for fresh run
m = 10^5;  n = 5;  mu = 100;  sg = 10
MAT = matrix(rnorm(m*n, mu, sg), nrow=m)  # m x n matrix: 10^5 samples of size 4
a = rowMeans(MAT)   # m sample means (averages)
s = apply(MAT, 1, sd);  q = (n-1)*s^2/sg^2  # m sample SD's and values of Q
mean(a)
## 100.0139     # aprx E(x-bar) = 100
mean(s);  mean(s^2)    
## 9.412638     # aprx E(S) < 10
## 100.3715     # aprx E(S^2) = 100
cor(a, s)
## -0.00194571  # approx r = 0

par(mfrow=c(1,3))  # enable 3 panels per plot
hist(a, prob=T, col="skyblue2", xlab="Sample Mean", main="Normal Dist'n of Sample Mean")
  curve(dnorm(x, mu, sg/sqrt(n)), add=T, lwd=2, col="red")
hist(q, prob=T, col="skyblue2", ylim=c(0,.18), xlab="Q", main="CHISQ(4)")
  curve(dchisq(x, n-1), add=T, lwd=2, col="red")
plot(a, s, pch=".", xlab="Sample Means", ylab="Sample SD", main="Illustrating Indep")
par(mfrow=c(1,1))

Рассчитать распределение среднего и дисперсии с учетом точек данных Гаусса

Делла

БрюсЕТ

Ответы (1)

БрюсЕТ

Выборочное среднее и дисперсия

Распределение совместной гауссовой зависимости от их суммы

«Сглаживание» нормального 2D-распределения

Распределение вероятностей. Тематическое исследование с бактериальной популяцией

Нахождение функции, производящей момент X2X2X^2, когда X~N(0,1)X~N(0,1)X\sim N(0,1)

Нормальная случайная величина, независимая от каждого компонента многомерного нормального случайного вектора.

Независимость от суммы нескольких гауссовских случайных величин

Определение того, являются ли случайные величины независимыми

Нормальное распределение среднего значения равномерного распределения

Использование pdf X для поиска pdf Y и вывод пределов, в которых действительна функция плотности вероятности Y?