Оценка стандартного отклонения совокупности с помощью стандартного отклонения выборки

Question

Оценка стандартного отклонения совокупности с помощью стандартного отклонения выборки

статистика
Математика
вероятность
среднеквадратичное отклонение

пользователь216094

На 4:30 этого видео автор решил оценить стандартное отклонение совокупности с помощью стандартного отклонения выборки (размер выборки был $100$ ).

В следующем видео автор упомянул, что это разумно, поскольку размер выборки превышает $30$ . Итак, что говорит нам о том, что мы можем оценить стандартное отклонение таким образом? Почему $30$ эта волшебная граница? Имеет ли это какое-то отношение к центральной предельной теореме? (Наверное, нет, потому что мы не вычисляем стандартное отклонение среднего, так что оно никак не связано).

Маслины

Ключ находится в смещении оценщика, поэтому в зависимости от процента, который вы принимаете, он меняется. Если бы вы работали в какой-то области медицины, где вы работаете с уровнем уверенности

99.9 %

$99.9\%$ ,

30

$30$ было бы явно слишком мало случаев. Если вы в порядке с уровнями уверенности вокруг

95 %

$95\%$ , так более приемлемо. Я не могу вспомнить, как рассчитать смещение, но держу пари, что если вы разберетесь с этим, вы обнаружите, что оно отвечает на ваш вопрос (скорее всего, даст смещение около

5 %

$5\%$ )

Ответы (2)

Оценка стандартного отклонения совокупности с помощью стандартного отклонения выборки

Ключ находится в смещении оценщика, поэтому в зависимости от процента, который вы принимаете, он меняется. Если бы вы работали в какой-то области медицины, где вы работаете с уровнем уверенности $99.9\%$ , $30$ было бы явно слишком мало случаев. Если вы в порядке с уровнями уверенности вокруг $95\%$ , так более приемлемо. Я не могу вспомнить, как рассчитать смещение, но держу пари, что если вы разберетесь с этим, вы обнаружите, что оно отвечает на ваш вопрос (скорее всего, даст смещение около $5\%$ )

БрюсЕТ · Answer 1

В корне проблема здесь, по-видимому, заключается в том, использовать ли z-статистику или t-статистику для нахождения доверительного интервала для среднего значения генеральной совокупности. $\mu$ или при проверке гипотезы о $\mu.$

Предполагать $X_1, X_2, \dots, X_n$ представляет собой случайную выборку из нормальной популяции, в которой как среднее $\mu$ и стандартное отклонение $\sigma$ неизвестны. Мы хотим найти 95% доверительный интервал (ДИ) для $\mu.$

Если бы мы знали $\sigma$ затем

Z "=" \frac{\bar{Икс} - мю}{о / \sqrt{н}} \sim Н о р м (0, 1) .

$Z = \frac{\bar X - \mu}{\sigma/\sqrt{n}} \sim Norm(0, 1).$ Таким образом

п {- 1 / 96 \leq \frac{\bar{Икс} - мю}{о / \sqrt{н}} \leq 1,96} "=" 0,95,

$P\left\{-1/96 \le \frac{\bar X - \mu}{\sigma/\sqrt{n}} \le 1.96\right\} = 0.95,$ в котором

μ

$\mu$ можно выделить за несколько шагов алгебры, чтобы

п {\bar{Икс} - 1,96 о / \sqrt{н} \leq мю \leq \bar{Икс} + 1,96 о / \sqrt{н}} "=" 0,95.

$P\{\bar X - 1.96\sigma/\sqrt{n} \le \mu \le \bar X + 1.96\sigma/\sqrt{n}\} = 0.95.$ Итак, мы говорим, что 95% ДИ для

μ

$\mu$ является

\bar{X} \pm 1.96 σ / \sqrt{n},

$\bar X \pm 1.96\sigma/\sqrt{n},$ в котором все количества

\bar{X}, σ,

$\bar X, \sigma,$ и

n

$n$ известны. Цифры

\pm 1.96

$\pm 1.96$ выбраны потому, что они вырезают 2,5% вероятности из верхнего и нижнего хвостов стандартного нормального распределения, оставляя 95% в центре.

В случае $\sigma$ неизвестно, удобно использовать стандартное отклонение выборки $S$ вместо этого, утверждая, что $\bar X \pm 1.96 S/\sqrt{n}$ или, возможно, $\bar X \pm 2 S/\sqrt{n},$ является приблизительным 95% ДИ для $\mu.$ Если $n \ge 30,$ это приближение довольно хорошее по причинам, которые мы увидим чуть ниже.

Если $\sigma$ неизвестно, точное распределение

Т "=" \frac{\bar{Икс} - мю}{С / \sqrt{н}} \sim Т (н - 1),

$T = \frac{\bar X - \mu}{S/\sqrt{n}} \sim T(n-1),$ Распределение Стьюдента с

n - 1

$n-1$ степени свободы. Затем точный 95% ДИ для

μ

$\mu$ является

\bar{X} \pm t^{*} S / \sqrt{n},

$\bar X \pm t^* S/\sqrt{n},$ где

t^{*}

$t^*$ сокращает 2,5% вероятности из верхнего хвоста

T (n - 1)

$T(n-1)$ и, по симметрии,

- t^{*}

$-t^*$ вырезает 2,5% из нижнего хвоста. Глядя на таблицы распределения t, мы видим, что для

n \geq 30

$n \ge 30$ (или

n - 1 \leq 29

$n-1\le 29$ ),

t^{*}

$t^*$ составляет примерно 2,0. Таким образом, приближенная процедура со стандартным нормальным распределением и точная процедура с распределением Стьюдента составляют примерно одно и то же.

Для меньших значений $n$ , значения $t^*$ стать заметно больше. Например, если $n = 10$ , у нас есть $t^* = 2.262.$ Таким образом, 95% ДИ становится длиннее (менее точным). Вы можете думать об этой потере точности как о «штрафе» за необходимость оценивать $\sigma$ к $S$ вместо того, чтобы знать точное значение $\sigma.$

Есть несколько веских причин вообще забыть о «правиле 30»:

Во-первых, он «работает» только для 95% ДИ. Для 99%-го доверительного интервала нам нужно отсечь 0,5% вероятности от каждого хвоста: нормальное пороговое значение равно $z^* = 2.576$ и нам нужно увеличить размер выборки примерно до $n = 60$ до $t^* \approx 2.6.$

Во-вторых, при использовании статистического программного обеспечения либо мы знаем точное значение $\sigma$ или программа аппроксимирует его по данным как $S.$ С самого начала мы должны знать, делаем ли мы z-интервал или t-интервал. Использование ненужного правила о размере выборки только запутывает проблему. Правильное правило: использовать z-процедуры $\sigma$ известен (а на практике его обычно нет); использовать t-процедуры not.

В-третьих, некоторые авторы элементарных книг пытаются использовать «правило 30» (без какого-либо теоретического обоснования) для разного рода ограничивающих процедур, применимости центральной предельной теоремы, безопасного использования t-процедур для ненормальных данных и т. д. на. В этих приложениях 30 редко является подходящей разделительной линией.

Отличный ответ! На занятиях я пропустил рассуждения о размере выборки 95% ДИ против 99% ДИ. Теперь это имеет смысл.
Фантастическое объяснение! Я просто думаю, как справиться $X$ быть дискретной случайной величиной в сочетании с небольшим размером выборки. Использование выборочного стандартного отклонения $S$ в качестве оценщика $\sigma$ не кажется правильным; скажем, моя случайная величина имеет два возможных результата: 0 или 1, с $P[X=0]=P[X=1]=0.5$ . Если я возьму только два образца, вполне может оказаться, что $X_0=X_1=1$ и это приведет к $S=0$ . Это означает, что, используя приведенное выше уравнение, 99% ДИ (или даже 99,999% ДИ) будут $[1,1]$ потому что $S=0$ . Как я должен оценить $\sigma$ вместо?
@rem: Конечно, эти методы t и z не применимы к вашему конкретному примеру. // Мое объяснение относится к выборке из нормальной популяции. Если расстояние от $X_i$ является дискретным, и $n$ достаточно велик, чтобы $\bar X$ приблизительно нормально, то некоторые авторы могут предложить использовать методы z или t в качестве приближений. // Если известен тип дискретного dist'n (например, биномиальное, пуассоновское и т. д.), то я бы искал точный метод, основанный на этом типе распределения.

Генри · Answer 2

Ни один из двух методов оценки стандартного отклонения генеральной совокупности от выборки не дает несмещенной оценки, хотя $\frac{1}{n-1}$ метод дает несмещенную оценку дисперсии.

Если сравнить две оценки дисперсии

с_{с}^{2} "=" \frac{\sum_{я}^{н} ({Икс}_{я} - \bar{Икс})^{2}}{н - 1}

$s_s^2 = \frac{\sum_i^n (x_i - \bar{x})^2}{n-1}$ с

с_{п}^{2} "=" \frac{\sum_{я}^{н} ({Икс}_{я} - \bar{Икс})^{2}}{н}

$s_p^2 = \frac{\sum_i^n (x_i - \bar{x})^2}{n}$ тогда ясно

\frac{s_{p}^{2}}{s_{s}^{2}} = \frac{n - 1}{n}

$\frac{s_p^2}{s_s^2} = \frac{n-1}{n}$ и так

\frac{с_{п}}{с_{с}} "=" \sqrt{1 - \frac{1}{н}} \approx 1 - \frac{1}{2 н}

$\dfrac{s_p}{s_s} = \sqrt{1-\frac{1}{n}} \approx 1 - \frac{1}{2n}$ что приближается к

1

$1$ как

n

$n$ увеличивается (для

n = 30

$n=30$ это о

0.983

$0.983$ и для

n = 100

$n=100$ о

0.995

$0.995$ ), и этот фактор менее важен, чем неопределенность в оценке стандартного отклонения совокупности от случайной выборки.

Более того: хотя выборочная дисперсия $S^2$ вычислено с использованием $n-1$ беспристрастен для $\sigma^2,$ беспристрастность не «выживает» при нелинейных преобразованиях. Для обычных данных $E(S) = [\sqrt{2/(n-1)}\Gamma(n/2)/\Gamma((n-1)/2)]\sigma.$ Таким образом, для нормальной выборки размером $n=5,$ у нас есть $E(S) \approx .94\sigma.$ Коэффициент при [ ]s сходится к 1 с увеличением $n$ . См. Википедию на тему «Непредвзятая оценка стандартного отклонения».

Оценка стандартного отклонения совокупности с помощью стандартного отклонения выборки

пользователь216094

Маслины

Ответы (2)

БрюсЕТ

Кокур4д

бэр

БрюсЕТ

Генри

БрюсЕТ

Почему оценки этого интеграла не учитывают оба равенства?

стандартное отклонение выборки с учетом стандартного отклонения генеральной совокупности

Что такое выборочная дисперсия выборочной дисперсии и что такое теоретическое выборочное распределение?

Стандартное отклонение выборки в сравнении со стандартным отклонением генеральной совокупности

Использование pdf X для поиска pdf Y и вывод пределов, в которых действительна функция плотности вероятности Y?

Оценка параметра максимального правдоподобия: предположение о среднем значении наблюдений

x количество людей владело козой, y количество людей владело верблюдом, z количество людей имело одно животное или другое, но не оба

У Бена и Джордана по три монеты на двоих. Двое из них честные, но у одного шанс выпадения орла составляет 4/7.

Какова вероятность того, что монета будет подброшена три раза

Тривиальный вопрос о прогнозировании скорости прибытия пуассоновского процесса на основе выборочных данных