Стандартное отклонение выборки в сравнении со стандартным отклонением генеральной совокупности

У меня есть графический калькулятор HP 50g, и я использую его для расчета стандартного отклонения некоторых данных. В расчете статистики есть тип, который может иметь два значения:

Образец населения

Я не изменил его, но продолжал получать неправильные результаты для стандартного отклонения. Когда я изменил его на тип «Население», я начал получать правильные результаты!

Почему это? Насколько мне известно, существует только один тип стандартного отклонения, который заключается в вычислении среднеквадратичного значения!

Я что-то пропустил?

Вопрос @ CrossValidated .

Ответы (1)

На самом деле здесь есть две разные формулы для стандартного отклонения: Стандартное отклонение генеральной совокупности о и стандартное отклонение выборки с .

Если Икс 1 , Икс 2 , , Икс Н обозначить все Н значения из совокупности, то стандартное отклонение (популяции) равно

о "=" 1 Н я "=" 1 Н ( Икс я мю ) 2 ,
где мю является средним значением населения.

Если Икс 1 , Икс 2 , , Икс Н обозначать Н значения из выборки, то стандартное отклонение (выборки) составляет

с "=" 1 Н 1 я "=" 1 Н ( Икс я Икс ¯ ) 2 ,
где Икс ¯ является средним значением выборки.

Причина изменения формулы с образцом такова: когда вы вычисляете с вы обычно используете с 2 (выборочная дисперсия) для оценки о 2 (дисперсия населения). Проблема, однако, в том, что если вы не знаете о вы вообще не знаете население значит мю , либо, поэтому вы должны использовать Икс ¯ в том месте формулы, где вы обычно используете мю . Это вносит небольшую погрешность в расчет: Икс ¯ рассчитывается по выборке, значения Икс я в среднем ближе к Икс ¯ чем они были бы мю , поэтому сумма квадратов я "=" 1 Н ( Икс я Икс ¯ ) 2 оказывается в среднем меньше, чем я "=" 1 Н ( Икс я мю ) 2 . Так уж получилось, что это смещение можно исправить, разделив на Н 1 вместо Н . (Доказательство этого является стандартным упражнением в продвинутом курсе бакалавриата или начального курса магистратуры по статистической теории.) Технический термин здесь таков: с 2 (из-за деления на Н 1 ) является несмещенной оценкой о 2 .

Другой способ думать об этом состоит в том, что с образцом, который у вас есть Н независимые фрагменты информации. Однако, поскольку Икс ¯ это среднее из тех Н штук, если знаешь Икс 1 Икс ¯ , Икс 2 Икс ¯ , , Икс Н 1 Икс ¯ , вы можете понять, что Икс Н Икс ¯ является. Итак, когда вы возводите в квадрат и складываете остатки Икс я Икс ¯ , есть только Н 1 независимые части информации там. Так что в этом смысле, возможно, разделив на Н 1 скорее, чем Н имеет смысл. Технический термин здесь заключается в том, что существуют Н 1 степени свободы в остатках Икс я Икс ¯ .

Для получения дополнительной информации см. статью Википедии о стандартном отклонении выборки .

Как формула о н родом из с "=" 1 Н 1 я "=" 1 Н ( Икс я Икс ¯ ) 2 ?
@Имрей: это не так. Они относятся к двум разным вещам. Выражение о / н стандартное отклонение среднего Икс ¯ выборочных данных. Выражение с "=" 1 Н 1 я "=" 1 Н ( Икс я Икс ¯ ) 2 стандартное отклонение выборочных данных (а не среднее значение выборочных данных).
«Поскольку x¯ рассчитывается на основе выборки, значения xi в среднем ближе к x¯, чем они были бы к µ» — о, вау, спасибо. Я несколько раз читал объяснение, основанное на df, но это внезапно делает его интуитивно понятным по-другому.
@MikeSpivey: Хорошее объяснение. Но если я знаю, что среднее значение населения равно μ, то не следует ли мне также разделить дисперсию населения на n-1?
@Durin: Нет. Если ты действительно знаешь мю а ты хочешь посчитать о со всем Н конечные значения от населения, то вы ничего не оцениваете. В этом случае о следует рассчитывать, используя прямое среднее квадратов отклонений — делением на н вместо использования версии с поправкой на погрешность оценки, которая делится на н 1 .
Так почему же в таком случае я не могу понять это по независимым фрагментам информационной логики "N-1"? Я имею в виду хорошо! Я не оцениваю это время, но мне любопытно, почему первая логика здесь не сработает. Спасибо за ответ.
Разве это не соглашение, обычно используемое н для образца и Н для населения?
Не могли бы вы дать ссылку на доказательство «Так получилось, что это предубеждение можно исправить, разделив ...»?
Спасибо за ваше объяснение. Эта часть о N-1независимых фрагментах информации выглядит неубедительно, поскольку вы могли бы применить ту же логику к σ, но вы не применяете ее, вы применяете ее только к s.