Оценка стандартного отклонения совокупности с помощью стандартного отклонения выборки

На 4:30 этого видео автор решил оценить стандартное отклонение совокупности с помощью стандартного отклонения выборки (размер выборки был 100 ).

В следующем видео автор упомянул, что это разумно, поскольку размер выборки превышает 30 . Итак, что говорит нам о том, что мы можем оценить стандартное отклонение таким образом? Почему 30 эта волшебная граница? Имеет ли это какое-то отношение к центральной предельной теореме? (Наверное, нет, потому что мы не вычисляем стандартное отклонение среднего, так что оно никак не связано).

Ключ находится в смещении оценщика, поэтому в зависимости от процента, который вы принимаете, он меняется. Если бы вы работали в какой-то области медицины, где вы работаете с уровнем уверенности 99,9 % , 30 было бы явно слишком мало случаев. Если вы в порядке с уровнями уверенности вокруг 95 % , так более приемлемо. Я не могу вспомнить, как рассчитать смещение, но держу пари, что если вы разберетесь с этим, вы обнаружите, что оно отвечает на ваш вопрос (скорее всего, даст смещение около 5 % )

Ответы (2)

В корне проблема здесь, по-видимому, заключается в том, использовать ли z-статистику или t-статистику для нахождения доверительного интервала для среднего значения генеральной совокупности. мю или при проверке гипотезы о мю .

Предполагать Икс 1 , Икс 2 , , Икс н представляет собой случайную выборку из нормальной популяции, в которой как среднее мю и стандартное отклонение о неизвестны. Мы хотим найти 95% доверительный интервал (ДИ) для мю .

Если бы мы знали о затем

Z "=" Икс ¯ мю о / н Н о р м ( 0 , 1 ) .
Таким образом
п { 1 / 96 Икс ¯ мю о / н 1,96 } "=" 0,95 ,
в котором мю можно выделить за несколько шагов алгебры, чтобы
п { Икс ¯ 1,96 о / н мю Икс ¯ + 1,96 о / н } "=" 0,95.
Итак, мы говорим, что 95% ДИ для мю является Икс ¯ ± 1,96 о / н , в котором все количества Икс ¯ , о , и н известны. Цифры ± 1,96 выбраны потому, что они вырезают 2,5% вероятности из верхнего и нижнего хвостов стандартного нормального распределения, оставляя 95% в центре.

В случае о неизвестно, удобно использовать стандартное отклонение выборки С вместо этого, утверждая, что Икс ¯ ± 1,96 С / н или, возможно, Икс ¯ ± 2 С / н , является приблизительным 95% ДИ для мю . Если н 30 , это приближение довольно хорошее по причинам, которые мы увидим чуть ниже.

Если о неизвестно, точное распределение

Т "=" Икс ¯ мю С / н Т ( н 1 ) ,
Распределение Стьюдента с н 1 степени свободы. Затем точный 95% ДИ для мю является Икс ¯ ± т * С / н , где т * сокращает 2,5% вероятности из верхнего хвоста Т ( н 1 ) и, по симметрии, т * вырезает 2,5% из нижнего хвоста. Глядя на таблицы распределения t, мы видим, что для н 30 (или н 1 29 ), т * составляет примерно 2,0. Таким образом, приближенная процедура со стандартным нормальным распределением и точная процедура с распределением Стьюдента составляют примерно одно и то же.

Для меньших значений н , значения т * стать заметно больше. Например, если н "=" 10 , у нас есть т * "=" 2.262. Таким образом, 95% ДИ становится длиннее (менее точным). Вы можете думать об этой потере точности как о «штрафе» за необходимость оценивать о к С вместо того, чтобы знать точное значение о .

Есть несколько веских причин вообще забыть о «правиле 30»:

Во-первых, он «работает» только для 95% ДИ. Для 99%-го доверительного интервала нам нужно отсечь 0,5% вероятности от каждого хвоста: нормальное пороговое значение равно г * "=" 2,576 и нам нужно увеличить размер выборки примерно до н "=" 60 до т * 2.6.

Во-вторых, при использовании статистического программного обеспечения либо мы знаем точное значение о или программа аппроксимирует его по данным как С . С самого начала мы должны знать, делаем ли мы z-интервал или t-интервал. Использование ненужного правила о размере выборки только запутывает проблему. Правильное правило: использовать z-процедуры о известен (а на практике его обычно нет); использовать t-процедуры not.

В-третьих, некоторые авторы элементарных книг пытаются использовать «правило 30» (без какого-либо теоретического обоснования) для разного рода ограничивающих процедур, применимости центральной предельной теоремы, безопасного использования t-процедур для ненормальных данных и т. д. на. В этих приложениях 30 редко является подходящей разделительной линией.

Отличный ответ! На занятиях я пропустил рассуждения о размере выборки 95% ДИ против 99% ДИ. Теперь это имеет смысл.
Фантастическое объяснение! Я просто думаю, как справиться Икс быть дискретной случайной величиной в сочетании с небольшим размером выборки. Использование выборочного стандартного отклонения С в качестве оценщика о не кажется правильным; скажем, моя случайная величина имеет два возможных результата: 0 или 1, с п [ Икс "=" 0 ] "=" п [ Икс "=" 1 ] "=" 0,5 . Если я возьму только два образца, вполне может оказаться, что Икс 0 "=" Икс 1 "=" 1 и это приведет к С "=" 0 . Это означает, что, используя приведенное выше уравнение, 99% ДИ (или даже 99,999% ДИ) будут [ 1 , 1 ] потому что С "=" 0 . Как я должен оценить о вместо?
@rem: Конечно, эти методы t и z не применимы к вашему конкретному примеру. // Мое объяснение относится к выборке из нормальной популяции. Если расстояние от Икс я является дискретным, и н достаточно велик, чтобы Икс ¯ приблизительно нормально, то некоторые авторы могут предложить использовать методы z или t в качестве приближений. // Если известен тип дискретного dist'n (например, биномиальное, пуассоновское и т. д.), то я бы искал точный метод, основанный на этом типе распределения.

Ни один из двух методов оценки стандартного отклонения генеральной совокупности от выборки не дает несмещенной оценки, хотя 1 н 1 метод дает несмещенную оценку дисперсии.

Если сравнить две оценки дисперсии

с с 2 "=" я н ( Икс я Икс ¯ ) 2 н 1
с
с п 2 "=" я н ( Икс я Икс ¯ ) 2 н
тогда ясно с п 2 с с 2 "=" н 1 н и так
с п с с "=" 1 1 н 1 1 2 н
что приближается к 1 как н увеличивается (для н "=" 30 это о 0,983 и для н "=" 100 о 0,995 ), и этот фактор менее важен, чем неопределенность в оценке стандартного отклонения совокупности от случайной выборки.

Более того: хотя выборочная дисперсия С 2 вычислено с использованием н 1 беспристрастен для о 2 , беспристрастность не «выживает» при нелинейных преобразованиях. Для обычных данных Е ( С ) "=" [ 2 / ( н 1 ) Г ( н / 2 ) / Г ( ( н 1 ) / 2 ) ] о . Таким образом, для нормальной выборки размером н "=" 5 , у нас есть Е ( С ) 0,94 о . Коэффициент при [ ]s сходится к 1 с увеличением н . См. Википедию на тему «Непредвзятая оценка стандартного отклонения».