Я хочу измерить среднее расстояние между неподвижной металлической конструкцией и водой, как показано на рисунке ниже, чтобы предсказать затопление. Назовем это расстояние уровнем воды h. Если уровень воды начнет подниматься, то мне нужно сообщить местным жителям, что приближается наводнение и они должны что-то делать и т. д.
Черным цветом я показываю неподвижную металлическую конструкцию. Синий цвет – это вода под этой металлической конструкцией. Скажем, вода — это озеро, в котором всегда есть волны и которое никогда не бывает спокойным. и волны не правильной формы Sin, а случайные.
У меня есть ультразвук/лазер или любое другое измерительное устройство, которое может измерять расстояние между устройством и водой с погрешностью 0,1 см очень быстро (намного быстрее, чем меняются волны воды, например, за 1 мс). Я делаю много замеров (100-200 раз) и рассчитываю средний уровень воды по отношению к моей металлоконструкции.
Например, я получил среднее значение h=123,2 см после 100 измерений, но поскольку вода всегда движется, стандартное отклонение высокое, около 20 см.
В этом примере могу ли я сказать, что уровень воды h=123,2±0,1 см, или я могу сказать только h=120±20 см, потому что стандартное отклонение равно 20 см?
Другими словами, если сегодня я получу среднее значение h=123,2 см, завтра я получу h=130,5 см и стандартное отклонение будет таким же 20 см, то должен ли я сообщать людям, что приближается наводнение, или я не могу, потому что разница уровней воды меньше стандартное отклонение, это означает, что оно ниже моей ошибки, и я не могу точно сказать, повышается уровень воды или понижается.
Это просто пример, чтобы продемонстрировать вопрос. Такой реальной задачи нет. Его можно заменить другим примером (измерение диаметра цилиндра, когда это не идеальный цилиндр) или чем-то еще, где погрешность прибора намного меньше стандартного отклонения.
Обычно такие задачи не решаются простым применением простой статистики. Стандартное отклонение может быть не особенно полезным в качестве индикатора. Например, во время наводнения действие волн может сильно отличаться от действия в более устойчивых условиях.
Вам также необходимо знать общий характер процесса наводнения. Приток в озеро повышает уровень по всему озеру. Ветер, толкающий воду в одну сторону, совсем другой, но все же может затопить часть берега озера. Водный лыжник, приближающийся слишком близко к причалу, может вызвать 1-метровую волну через причал, что, вероятно, не должно привести к срабатыванию вашей системы предупреждения о наводнениях.
Нужна хотя бы минимальная модель общей воды в озере, оцененная по измерениям уровня. Возможно, вам потребуется несколько измерений уровня в разных местах. Вы должны иметь их с течением времени, чтобы получить скорость изменения воды в озере.
Тогда вам нужно придумать способ борьбы с шумом. Стандартное отклонение может быть полезным, но может и не быть. Существует множество измерений тренда. Например, есть скользящие средние.
https://en.wikipedia.org/wiki/Скользящее_среднее
На этой странице также есть ссылки на множество других возможностей.
Когда у вас есть модель общего количества воды в озере, вам потребуются тестовые данные для ее проверки. Вам нужно будет получить реальные наблюдения и сравнить их с тем, когда было наводнение. Если ваша модель является точным временем для какого-то праздника. Если ваша модель не точна, вернитесь к работе.
Предполагая нормальное распределение, вероятность появления новой выборки за пределами среднего фиксированный.
Вы можете увидеть, как это используется в таблице здесь https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule .
Следовательно, перед объявлением флуда выберите значение это дает вам достаточную уверенность.
Образец с отклонение с вероятностью 32% связано с ошибкой (большая волна).
Популярно работать примерно до
(0,027% или вероятность естественного появления каждые 370 проб)
но важные результаты обычно подтверждаются
(0,000000002% или вероятность естественного появления каждые 500 000 000 проб).
или выше.
Устранение ошибок измерения поможет добиться более узкого распределения, повысив достоверность.
Например, я получил среднее значение h=123,2 см после 100 измерений, но поскольку вода всегда движется, стандартное отклонение высокое, около 20 см. В этом примере могу ли я сказать, что уровень воды h=123,2±0,1 см, или я могу сказать только h=120±20 см, потому что стандартное отклонение равно 20 см?
Это тот случай, когда фактический просмотр данных проясняет, что происходит. Вот некоторые данные, которые имеют характеристики, которые вы даете: среднее значение 123,2 см и стандартное отклонение . Я предположил нормальное распределение, но вы можете выбрать другое распределение, если хотите. Эти тысячи нанесены на график в зависимости от числа измерения:
Штриховые линии соответствуют нулю, , , и от среднего. Вы можете видеть, что большая часть данных находится в диапазон вокруг среднего, и почти все данные лежат в пределах . Только очень редкие точки лежат за пределами группа. Снаружи оказывается ровно три измерения. полоса (около середины и все по бокам, приближающиеся к 200 см), что кто-то, кто плохо знаком с этим делом, может принять как подтверждение утверждения в другом ответе, что 99,7% нормально распределенных точек данных лежат в пределах среднего. Но тот факт, что я получил ровно три «выброса» и что все выбросы оказались высокими, является случайностью: три выброса по трем сигмам на тысячу точек — это среднее значение по многим тысячам точек данных, и любой конкретная тысяча точек данных может иметь несколько больше или меньше трех выбросов.
Если я сверну эти данные в гистограмму, это будет выглядеть так:
Вы можете видеть здесь, что измерение 130 см вовсе не редкость; этот набор данных содержит пятьдесят или шестьдесят измерений в корзине вместо измерения 130 см. когда ты говоришь мне , я слышу "обычно между 100 см и 140 см".
Что, возможно, не интуитивно понятно, так это то, что вы знаете больше о среднем значении, чем о каком-либо конкретном измерении. «Стандартная ошибка среднего» выглядит как , где - стандартное отклонение распределения и - количество выборок, включенных в вычисление среднего значения. Например, этот набор данных имеет и , поэтому неопределенность среднего . Фактическое среднее значение, которое я вычисляю из этих тысяч точек данных, равно , что полностью согласуется со средним значением 123,2 см, которое я вставил вручную.
Чтобы лучше увидеть разницу между шириной распределения и неопределенностью среднего значения, вот гистограммы из десяти разных наборов по 1000 измерений в каждом, сгенерированные так же, как и выше:
Среднее значение каждого набора данных представлено толстой синей точкой. Слева, где вы можете видеть весь дистрибутив, вы едва можете сказать, что не все средства одинаковы. Справа, где показаны только средние значения, видно, что оценка неопределенности выглядит как хорошая оценка неопределенности среднего значения, поскольку около двух третей средних значений находятся в пределах одной планки погрешности от правильного значения. Это похоже на метастатистику: сбор статистики по средним значениям и стандартным отклонениям нескольких наборов данных.
Это общая схема со статистикой: имеет больше смысла, если вы действительно можете играть с некоторыми данными, когда вы уже знаете некоторые вещи, которые вас интересуют.
Фарчер
Злелик
Фарчер