На 4:30 этого видео автор решил оценить стандартное отклонение совокупности с помощью стандартного отклонения выборки (размер выборки был ).
В следующем видео автор упомянул, что это разумно, поскольку размер выборки превышает . Итак, что говорит нам о том, что мы можем оценить стандартное отклонение таким образом? Почему эта волшебная граница? Имеет ли это какое-то отношение к центральной предельной теореме? (Наверное, нет, потому что мы не вычисляем стандартное отклонение среднего, так что оно никак не связано).
В корне проблема здесь, по-видимому, заключается в том, использовать ли z-статистику или t-статистику для нахождения доверительного интервала для среднего значения генеральной совокупности. или при проверке гипотезы о
Предполагать представляет собой случайную выборку из нормальной популяции, в которой как среднее и стандартное отклонение неизвестны. Мы хотим найти 95% доверительный интервал (ДИ) для
Если бы мы знали затем
В случае неизвестно, удобно использовать стандартное отклонение выборки вместо этого, утверждая, что или, возможно, является приблизительным 95% ДИ для Если это приближение довольно хорошее по причинам, которые мы увидим чуть ниже.
Если
неизвестно, точное распределение
Для меньших значений , значения стать заметно больше. Например, если , у нас есть Таким образом, 95% ДИ становится длиннее (менее точным). Вы можете думать об этой потере точности как о «штрафе» за необходимость оценивать к вместо того, чтобы знать точное значение
Есть несколько веских причин вообще забыть о «правиле 30»:
Во-первых, он «работает» только для 95% ДИ. Для 99%-го доверительного интервала нам нужно отсечь 0,5% вероятности от каждого хвоста: нормальное пороговое значение равно и нам нужно увеличить размер выборки примерно до до
Во-вторых, при использовании статистического программного обеспечения либо мы знаем точное значение или программа аппроксимирует его по данным как С самого начала мы должны знать, делаем ли мы z-интервал или t-интервал. Использование ненужного правила о размере выборки только запутывает проблему. Правильное правило: использовать z-процедуры известен (а на практике его обычно нет); использовать t-процедуры not.
В-третьих, некоторые авторы элементарных книг пытаются использовать «правило 30» (без какого-либо теоретического обоснования) для разного рода ограничивающих процедур, применимости центральной предельной теоремы, безопасного использования t-процедур для ненормальных данных и т. д. на. В этих приложениях 30 редко является подходящей разделительной линией.
Ни один из двух методов оценки стандартного отклонения генеральной совокупности от выборки не дает несмещенной оценки, хотя метод дает несмещенную оценку дисперсии.
Если сравнить две оценки дисперсии
[ ]
s сходится к 1 с увеличением
. См. Википедию на тему «Непредвзятая оценка стандартного отклонения».
Маслины