Оценка погрешности при измерениях с высоким стандартным отклонением

Я хочу измерить среднее расстояние между неподвижной металлической конструкцией и водой, как показано на рисунке ниже, чтобы предсказать затопление. Назовем это расстояние уровнем воды h. Если уровень воды начнет подниматься, то мне нужно сообщить местным жителям, что приближается наводнение и они должны что-то делать и т. д.

введите описание изображения здесь

Черным цветом я показываю неподвижную металлическую конструкцию. Синий цвет – это вода под этой металлической конструкцией. Скажем, вода — это озеро, в котором всегда есть волны и которое никогда не бывает спокойным. и волны не правильной формы Sin, а случайные.

У меня есть ультразвук/лазер или любое другое измерительное устройство, которое может измерять расстояние между устройством и водой с погрешностью 0,1 см очень быстро (намного быстрее, чем меняются волны воды, например, за 1 мс). Я делаю много замеров (100-200 раз) и рассчитываю средний уровень воды по отношению к моей металлоконструкции.

Например, я получил среднее значение h=123,2 см после 100 измерений, но поскольку вода всегда движется, стандартное отклонение высокое, около 20 см.

В этом примере могу ли я сказать, что уровень воды h=123,2±0,1 см, или я могу сказать только h=120±20 см, потому что стандартное отклонение равно 20 см?

Другими словами, если сегодня я получу среднее значение h=123,2 см, завтра я получу h=130,5 см и стандартное отклонение будет таким же 20 см, то должен ли я сообщать людям, что приближается наводнение, или я не могу, потому что разница уровней воды меньше стандартное отклонение, это означает, что оно ниже моей ошибки, и я не могу точно сказать, повышается уровень воды или понижается.

Это просто пример, чтобы продемонстрировать вопрос. Такой реальной задачи нет. Его можно заменить другим примером (измерение диаметра цилиндра, когда это не идеальный цилиндр) или чем-то еще, где погрешность прибора намного меньше стандартного отклонения.

Следует помнить, что это не среднее значение, которое начнет наводнение, а значения выше среднего, и вы должны начать беспокоиться, когда среднее значение плюс два или три стандартных отклонения превысит вашу пороговую высоту. Береженого Бог бережет.
@Farcher, тогда в моем примере, если среднее значение было 123,2 со стандартным отклонением 20 см, а через некоторое время среднее значение увеличилось на 7 см до 130 см (что меньше стандартного отклонения в 3 раза), мне вообще не о чем беспокоиться. А если средний будет 160 см и больше, то стоит ли волноваться? Вы имели в виду это?
Это текущее среднее значение, умноженное на n стандартных отклонений, где n — это то, что вам нужно принять решение. Я бы беспокоился , если бы значительное количество значений было выше среднего плюс два стандартных отклонения.

Ответы (3)

Обычно такие задачи не решаются простым применением простой статистики. Стандартное отклонение может быть не особенно полезным в качестве индикатора. Например, во время наводнения действие волн может сильно отличаться от действия в более устойчивых условиях.

Вам также необходимо знать общий характер процесса наводнения. Приток в озеро повышает уровень по всему озеру. Ветер, толкающий воду в одну сторону, совсем другой, но все же может затопить часть берега озера. Водный лыжник, приближающийся слишком близко к причалу, может вызвать 1-метровую волну через причал, что, вероятно, не должно привести к срабатыванию вашей системы предупреждения о наводнениях.

Нужна хотя бы минимальная модель общей воды в озере, оцененная по измерениям уровня. Возможно, вам потребуется несколько измерений уровня в разных местах. Вы должны иметь их с течением времени, чтобы получить скорость изменения воды в озере.

Тогда вам нужно придумать способ борьбы с шумом. Стандартное отклонение может быть полезным, но может и не быть. Существует множество измерений тренда. Например, есть скользящие средние.

https://en.wikipedia.org/wiki/Скользящее_среднее

На этой странице также есть ссылки на множество других возможностей.

Когда у вас есть модель общего количества воды в озере, вам потребуются тестовые данные для ее проверки. Вам нужно будет получить реальные наблюдения и сравнить их с тем, когда было наводнение. Если ваша модель является точным временем для какого-то праздника. Если ваша модель не точна, вернитесь к работе.

На самом деле наводнение — это просто пример. Я просто хочу больше понять, как правильно использовать стандартное отклонение для реальных измерений. Но «Скользящее среднее» — очень хорошая статья. Я не знал об этом. Большое спасибо.

Предполагая нормальное распределение, вероятность появления новой выборки н о за пределами среднего п о ты т с я д е ( с ) фиксированный.

Вы можете увидеть, как это используется в таблице здесь https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule .

Следовательно, перед объявлением флуда выберите значение н это дает вам достаточную уверенность.

Образец с 1 о отклонение с вероятностью 32% связано с ошибкой (большая волна).

Популярно работать примерно до

3 о (0,027% или вероятность естественного появления каждые 370 проб)

но важные результаты обычно подтверждаются

6 о (0,000000002% или вероятность естественного появления каждые 500 000 000 проб).

или выше.

Устранение ошибок измерения поможет добиться более узкого распределения, повысив достоверность.

Например, я получил среднее значение h=123,2 см после 100 измерений, но поскольку вода всегда движется, стандартное отклонение высокое, около 20 см. В этом примере могу ли я сказать, что уровень воды h=123,2±0,1 см, или я могу сказать только h=120±20 см, потому что стандартное отклонение равно 20 см?

Это тот случай, когда фактический просмотр данных проясняет, что происходит. Вот некоторые данные, которые имеют характеристики, которые вы даете: среднее значение 123,2 см и стандартное отклонение о "=" 20 с м . Я предположил нормальное распределение, но вы можете выбрать другое распределение, если хотите. Эти тысячи нанесены на график в зависимости от числа измерения:

1k случайных точек данных

Штриховые линии соответствуют нулю, ± 1 о , ± 2 о , и ± 3 о от среднего. Вы можете видеть, что большая часть данных находится в ± 1 о диапазон вокруг среднего, и почти все данные лежат в пределах ± 2 о . Только очень редкие точки лежат за пределами ± 3 о группа. Снаружи оказывается ровно три измерения. ± 3 о полоса (около середины и все по бокам, приближающиеся к 200 см), что кто-то, кто плохо знаком с этим делом, может принять как подтверждение утверждения в другом ответе, что 99,7% нормально распределенных точек данных лежат в пределах ± 3 о среднего. Но тот факт, что я получил ровно три «выброса» и что все выбросы оказались высокими, является случайностью: три выброса по трем сигмам на тысячу точек — это среднее значение по многим тысячам точек данных, и любой конкретная тысяча точек данных может иметь несколько больше или меньше трех выбросов.

Если я сверну эти данные в гистограмму, это будет выглядеть так:

гистограмма точек данных

Вы можете видеть здесь, что измерение 130 см вовсе не редкость; этот набор данных содержит пятьдесят или шестьдесят измерений в корзине вместо измерения 130 см. когда ты говоришь мне ( 123,2 ± 20 ) с м , я слышу "обычно между 100 см и 140 см".

Что, возможно, не интуитивно понятно, так это то, что вы знаете больше о среднем значении, чем о каком-либо конкретном измерении. «Стандартная ошибка среднего» выглядит как о / Н , где о - стандартное отклонение распределения и Н - количество выборок, включенных в вычисление среднего значения. Например, этот набор данных имеет о "=" 20 с м и Н "=" 1000 , поэтому неопределенность среднего о / Н "=" 0,6 с м . Фактическое среднее значение, которое я вычисляю из этих тысяч точек данных, равно ( 123,3 ± 0,6 ) с м , что полностью согласуется со средним значением 123,2 см, которое я вставил вручную.

Чтобы лучше увидеть разницу между шириной распределения и неопределенностью среднего значения, вот гистограммы из десяти разных наборов по 1000 измерений в каждом, сгенерированные так же, как и выше:

десять гистограмм

Среднее значение каждого набора данных представлено толстой синей точкой. Слева, где вы можете видеть весь дистрибутив, вы едва можете сказать, что не все средства одинаковы. Справа, где показаны только средние значения, видно, что оценка неопределенности о / Н "=" 0,6 с м выглядит как хорошая оценка неопределенности среднего значения, поскольку около двух третей средних значений находятся в пределах одной планки погрешности от правильного значения. Это похоже на метастатистику: сбор статистики по средним значениям и стандартным отклонениям нескольких наборов данных.

Это общая схема со статистикой: имеет больше смысла, если вы действительно можете играть с некоторыми данными, когда вы уже знаете некоторые вещи, которые вас интересуют.

Спасибо за хороший ответ. Я только не понял, что означает погрешность 0,6 см в вашем примере. Если у меня нормальное распределение σ=20 см, это означает, что с вероятностью 65% значение находится в диапазоне от 100 до 140 см. Но когда я делаю 1000 измерений и стандартное отклонение равно тем же 20 см, что это за 0,6 см? Я думаю, что не имеет значения, сколько измерений я сделал, но вероятность будет такой же 65%, чтобы найти значение между 100 и 140 см, и если я скажу 123,3 ± 0,6 см со стандартным отклонением 20 см, то вероятность того, что значение будет между 122,7 а 123,9 см очень мало, может быть <1%.
Я пытался провести различие между тем, что можно сказать о любом отдельном измерении, и тем, что можно сказать о совокупности измерений. Возможно, редактирование прояснит ситуацию.
Немного понятнее, но все же не на 100%. Если мы скажем, что сегодня средний уровень воды h=(123,3±0,6)см в том смысле, который ты объясняешь, то завтра он станет h=(125,3±0,6)см и в обоих случаях стандартное отклонение равно 20см, то следует объявить флуд или это просто случайное отклонение и ничего не значит? Другими словами, что означает 0,6 см с физической точки зрения, а не с точки зрения чистой статистики?
Когда специалисты по климату говорят о наблюдении за повышением уровня моря на несколько сантиметров за последние двадцать лет, они проводят именно тот анализ, который вы предлагаете в своем комментарии. В море есть быстрые волны, которые намного выше нескольких сантиметров, и приливы, которые намного выше, чем типичные быстрые волны, поэтому, если вы пойдете на пляж и сделаете одну фотографию, вы, вероятно, увидите уровень воды более чем на метр выше или ниже уровня воды. «средний» уровень. Однако с помощью многих наблюдений можно подтвердить, что средний уровень моря сегодня значительно отличается от того, который был в 1990-х годах.
Но все же, что значат эти 0,6см с физической точки зрения? стандартное отклонение понятно, когда я пишу 120±20см (20см это стандартное отклонение), значит если я буду делать какие-либо измерения, то с вероятностью 65% значение будет от 100см до 140см. а что такое 0,6см? Или что бы вы сделали в этом примере: сегодня средний уровень воды h=(123,3±0,6) см в том смысле, который вы объясняете, то завтра он становится равным h=(125,3±0,6) см, и в обоих случаях стандартное отклонение равно 20 см. , то вы бы объявили наводнение и начали эвакуацию людей или ничего бы не сделали?
а когда мне климатологи говорят, что температура поднимается на 0,5С±0,1 при стандартном отклонении 2С, то для меня это немного странно :)