Как можно проверить утверждения о вероятности?

Предположим, я сказал: «Вероятность завтрашнего дождя — 50 %», а кто-то другой сказал: «Нет, на самом деле 60 %». Как мы можем узнать, кто из них прав? На самом деле я спрашиваю, как правильно назначать вероятности утверждениям. Кроме того, я хотел бы некоторые ссылки, которые обсуждают эту проблему.

Забавная вещь с прогнозами погоды заключается в том, что когда компьютеры совершенствовались, прогнозы становились все хуже. Я был удивлен, когда здесь (Голландия) был сделан прогноз о снеге утром в выходные дни. Это было в середине недели. А утром в субботу пошел снег.
В случае с погодой вы не можете поставить земли рядом друг с другом и посмотреть, на скольких землях сбывается предсказание, больше или меньше. Однако на всех землях зимой будет теплее или прохладнее. 100%.
Назначения вероятностей зависят от уровня знаний и исходных предположений и могут быть сделаны только в контексте модели. Различные метеорологические модели могут давать разные назначения, поэтому обе они могут быть правильными. См. , например , SEP, Философия статистики о том, как генерируются назначения в байесовской статистике, но перекрестная проверка SE может быть лучшим местом для этого вопроса.
Ответом в духе Поппера было бы сказать, что предсказания нельзя проверить, но их можно сфальсифицировать. Предсказатель, который неоднократно делает неверные прогнозы, может быть признан ненадежным, даже если эти прогнозы являются вероятностными. Один из способов сделать это — использовать оценку Брайера. en.wikipedia.org/wiki/Brier_score Даже в этом случае мы можем говорить только о надежности предиктора набора прогнозов, а не одного прогноза.
Не думаю, что это философский вопрос.
См. следующий связанный вопрос: philosophy.stackexchange.com/questions/32135/…

Ответы (5)

[Длинный ответ, который был принят, но оказался в основном неправильным. Подробности смотрите в истории редактирования]

Частотная интерпретация не говорит, что вероятности не применимы к пойманной монете. Это как в карточных играх, как в покере, где вы рандомизируете в начале, а затем карты игроков прячутся. Частотная интерпретация способна анализировать покер. До тех пор, пока ситуация может повторяться и наблюдаться за результатами, частотная интерпретация может назначать вероятности на основе долгосрочных отношений.
Я согласен с @causative - частотная интерпретация не требует различия между событиями, которые уже произошли, и событиями, которые еще не произошли, она просто требует объективной истины о частотах различных результатов (в «гипотетическом частоте», который я думаю чаще всего это были бы частоты в пределе бесконечного числа испытаний). Тогда, если у вас есть некоторые известные факты A об испытании (например, условия, при которых была подброшена монета) и неизвестные факты B (какая сторона выпала), P(B|A) — это частота B в наборе испытаний. с характеристиками А.
-1 В этом ответе куча ошибок (слишком много, чтобы писать в комментариях). Остерегайтесь читатели.
Прочитав комментарии и прочитав еще немного, я вижу, что был неправ. Однако я не могу удалить принятый ответ. Пожалуйста, удалите принятие, и я убью его.

Трудно проверить отдельное вероятностное утверждение о реальном событии, особенно если оценка настолько расплывчата, как 50%, но мы можем проверить большие наборы вероятностных утверждений в сравнении с наблюдениями. Мы можем спросить, когда этот человек говорит, что шансы равны 50%, сколько раз предсказанное им событие происходит на самом деле? Если событие происходит в 75% случаев, когда он говорит, что это 50%, то его (частично) сфальсифицировали; не так сильно сфальсифицировано, как если бы событие произошло в 5% случаев или в 95% случаев. Фальсификация вероятностных утверждений зависит от степени и повторения.

Будучи немного более изощренным, мы можем посмотреть на неожиданность событий, согласно предсказаниям человека. Если он предсказывает вероятность дождя 75%, а дождь идет, то неожиданность равна -log_2(0,75) = 0,41. Если он предсказывает вероятность дождя в 75%, а дождя нет, то неожиданность равна -log_2(0,25) = 2,0. Чем выше было удивление, тем менее точным он был. Мы можем посмотреть на его среднюю неожиданность во многих прогнозах.

Например, давайте посмотрим на предсказания человека о дожде за 10 последовательных дней, а также на то, шел дождь (R) или нет (N):

10% 20% 5% 75% 90% 10% 5% 5% 5% 5%
  R   N  N   R   R   N  N  N  N  N

Среднее удивление здесь равно (-log(.1) - log(.8) - log(.95) - log(.75) - log(.9) - log(.9) - log(.95) - log (0,95) - журнал (0,95) - журнал (0,95)) / 10 = 0,47. Это мера того, сколько бит в среднем нам потребуется, чтобы скорректировать его предсказания относительно того, что произошло на самом деле. Чем выше, тем хуже, 0 — это лучшее, что вы можете сделать.

Еще один способ фальсифицировать вероятностные прогнозы — это определенные формы азартных игр. Если вы действительно знаете шансы и принимаете решения, основываясь на этом, у вас будет долгосрочное преимущество, когда вы играете в азартные игры, по сравнению с кем-то, кто не знает шансов. Теория вероятности изначально была разработана для помощи в азартных играх. Это принцип, лежащий в основе рынков предсказаний . Если кто-то, играя на рынке предсказаний, в долгосрочной перспективе проигрывает, то его оценки вероятностей различных событий должны быть неточными — по крайней мере, по сравнению с его конкурентами.

Говоря в более общем плане, когда вы играете в игру, в которой вы делаете вероятностные прогнозы, а ваша награда основана на правильном правиле подсчета очков , ваш успех в этой игре максимизируется, когда ваши прогнозы максимально точны, а плохой успех в этой игре искажает ваши прогнозы. .

Я описывал способы проверки вероятностных прогнозов наблюдениями. Но есть и другие способы подтвердить или опровергнуть предсказания, которые не требуют от нас ожидания наблюдения.

Во-первых, мы можем посмотреть на внутреннюю согласованность. Если кто-то говорит, что P(A) = 0,5, P(B) = 0,7 и P(A ∩ B) = 0,8, то он совершил ошибку конъюнкции , искажая свое распределение вероятностей.

Наконец, мы можем взглянуть на метод, с помощью которого были получены вероятности, а также на послужной список или теоретические гарантии этого метода. Создание и оценка таких методов — это практически вся статистика. Если метод хорош, то следует больше доверять вероятностям. Если метод не проверен или известен как плохой, то мы должны меньше доверять вероятностям.

Если предсказатель дождя делает свои прогнозы на основе определенного набора четко определенных наблюдений (например, числовых параметров, значения которых находятся в результате наблюдения), частотник также может более конкретно оценить, верна ли вероятность в терминах частотности, взяв большое значение. набор испытаний (приближаясь к бесконечности в гипотетической частотности) и рассматривая только подмножество испытаний, где были сделаны те же самые наблюдения, а затем наблюдая, в какой части этого подмножества действительно шел дождь. Возможно, его оценка вероятности является точной в этих условиях, но не в других.

Как указывалось в других ответах, существует множество интерпретаций вероятности (хотя эти ответы полны ошибок и неточностей, так что будьте осторожны).

Я думаю, что самая основная проблема, на которую следует обратить внимание, заключается в том, что ваш вопрос предполагает, что высказывания вроде «С вероятностью 50%, что завтра пойдет дождь» имеют значение истины . То есть вы предполагаете, что есть смысл говорить о том, что такие высказывания правильные (истинные) или неправильные (ложные).

Байесовцы (субъективисты, персоналисты) отрицают это. Если Боб говорит: «Вероятность того, что завтра пойдет дождь, составляет 50 %», это следует интерпретировать как «Я (Боб) так же уверен, что будет дождь, как и в том, что его не будет». Если Чарли возразит: «Нет, вероятность дождя составляет 60 %», нет смысла спрашивать, кто прав. У Боба и Чарли просто разные мнения, разный уровень уверенности.

Чтобы узнать больше об этой точке зрения, вам следует прочитать «Теорию вероятностей» де Финетти и «Предприятие знаний» Исаака Леви . Или начать с этого .

Хорошо, что значение истинности усложняется, когда мы используем вероятности. Но я думаю, что было бы слишком далеко говорить, что предсказание Боба на 50 % — не более чем уровень его уверенности. По крайней мере, он утверждает, что было бы разумно оценить вероятность на уровне 50%, учитывая доступную ему информацию. Подумайте вот о чем: если Боб скажет, что дождь будет с вероятностью 99,999999999%, а дождя не будет, вы все равно скажете, что он не ошибся?
У нас есть определенные ментальные методы, как формальные, так и интуитивные суждения, которые мы используем для получения вероятностей. Мы хотим, чтобы вероятности, получаемые методами, в целом соответствовали наблюдаемым частотам и помогали нам принимать выгодные решения. Если методы плохо помогают нам достичь этих целей, то мы можем сказать, что они были неправильными, и заменить их лучшими методами, если это возможно. Мы также можем сказать, что индивидуальная вероятность неверна, если наши лучшие методы дают существенно другую вероятность.
@causative Все это звучит как часто задаваемый вопрос. Я не вижу аргументов против байесовской интерпретации (которую я просто сообщаю, а не защищаю).
Я думаю, что очень немногие байесовцы согласятся с тем, что вероятностное утверждение не может быть ошибочным, если оно является точным самоотчетом о степени своей веры. Байесовская вероятность сильно связана с рациональными методами обновления убеждений, часто формальными математическими методами, подчиняющимися закону Байеса. Это не просто «все идет».
@causative Многие байесовцы рассматривают выбор априорного распределения как произвольный субъективный вопрос, хотя некоторые, такие как Джейнс, утверждали, что существует рациональная процедура выбора априорных значений.
@Hypnosifl Да, ну, выбор априорного значения - это только одна часть байесовского вывода, см. Также en.wikipedia.org/wiki/Aumann%27s_agreement_theorem . Байесовская точка зрения, по крайней мере, включает в себя нормативный взгляд на то, как априорные данные должны быть обновлены новой информацией. Это не только описание субъективных степеней уверенности, это также набор методов правильного определения этих степеней уверенности.
@causative - Очевидно, это метод обновления на основе новой информации, это и есть определение байесовства. Но «согласование» между индивидуумами с разными априорными значениями было бы совершенным только в пределах бесконечного числа обновлений, основанных на наблюдениях — для любого конечного числа наблюдений вы всегда можете иметь двух индивидуумов, чьи априорные распределения были бы настолько разными, что их апостериорные вероятности по-прежнему не согласен на какую-то «крупную» (при любом определении «большой») сумму. И, как сказал Адух, нет никаких оснований говорить, что кто-либо из них объективно прав или неправ.
@Hypnosifl В байесовском выводе мы можем сказать, что кто-то ошибается, если неправильно применяет байесовский вывод на основе доступной информации. Да, два человека могли правильно применить байесовский вывод к разным априорным данным и разным наблюдениям и получить совершенно разные результаты. Но сделали ли они ? Возможно, у них были похожие априорные значения, а их различия являются результатом неправильного вывода на основе этих априорных значений. Я ожидаю, что у каждого ребенка будет такое же прошлое, как и у любого другого ребенка, а различия во взглядах на взрослую жизнь будут результатом наблюдений, а не предпосылок.
Неверно сказать, что байесовцы не озабочены поиском «правильных» вероятностей. Нахождение «правильных» вероятностей с учетом доступной информации — это действительно все, что нужно.
@causative Я почти уверен, что адух не говорил о том факте, что кто-то может утверждать, что он байесовец, но при этом неправильно применять процедуру обновления. Может быть и правда, что младенцы в каком-то смысле имеют схожие априорные отношения, но различия по мере их взросления не обязательно должны быть связаны исключительно с доказательствами, они также могут быть связаны с такими вещами, как философские или религиозные убеждения, которые они принимают по неэмпирическим причинам. Что касается «правильных» вероятностей, вам нужно определить, что это означает для байесовцев, в частности, что это может означать для двух, которые оба использовали правильную процедуру обновления, но с разницей. приоры.
@Hypnosifl Если два человека используют правильную процедуру обновления из разных источников или разных наблюдений, они оба правы. Байесовское вероятностное утверждение имеет форму: «Учитывая априорные данные и наблюдения, доступные агенту X, P (Y) = z получается путем правильного применения правила Байеса». Два агента могут расходиться во мнениях относительно P(Y), но все же быть правильными в байесовском смысле, если они правильно получили P(Y) из своих соответствующих априорных значений и наблюдений. Вероятностное утверждение может быть неверным, если агент утверждает, что P(Y)=z, но это не получается при правильном применении правила Байеса.
@causative - Но ответ Адуха, кажется, просто говорит о том, что для байесовца нет объективно правильного ответа о самих заявленных вероятностях (50% против 60% в примере). Можно согласиться с этим, но в то же время сказать, что оба байесовца были методологически правы в том, как они обновляли свои априорные предположения с учетом сделанных ими наблюдений.
В ответе @Hypnosifl aduh говорится, что байесовское утверждение вероятности - не что иное, как «Этот агент придерживается P (Y) = z», и поэтому не имеет смысла спрашивать, правильно ли оно. Но на самом деле байесовское утверждение звучит так: «Этот агент обоснованно придерживается P(Y)=z», и имеет смысл спросить, верно ли это утверждение. Естественно, не существует универсального набора вероятностей, который должен быть у каждого агента. Но это не означает, что байесовские вероятности никогда не фальсифицируются.
@causative - я думаю, мы все еще можем провести различие между «объективно правильным ответом» и «неустранимо субъективным ответом, который был получен с помощью правильной методологии обновления вероятности».
@Hypnosifl Является ли это «субъективным» или «объективным», это действительно вопрос мнения; «P (Y) = z получено байесовским выводом из предыдущих P и наблюдений O» - это математически объективное утверждение, теоретически поддающееся проверке формальными методами. Хотя это также субъективно в том смысле, что имеет отношение только к разуму одного агента. Во всяком случае, «объективность» — это слово, которое вы упомянули, а не задающий вопрос или адух. Мы говорили о том, как вероятностные утверждения могут быть проверены/фальсифицированы, а не о том, как они могут быть «объективно» проверены/фальсифицированы.
@causative aduh называл байесовцев «субъективистами» и противопоставлял их тем, кто считает, что утверждение типа «С вероятностью 50%, что завтра пойдет дождь» само по себе будет иметь определенное истинное значение, поэтому мне казалось естественным сослаться на к последней группе как к тем, кто верит, что существует «объективно правильный ответ» об истинностном значении утверждения.
@Hypnosifl Ну, то, что они «субъективисты», не исключает проверки или фальсификации; просто это делается в субъективном контексте (имеется в виду, в данном случае, контекст, связанный с априорными данными и наблюдениями отдельного агента).

Прогноз погоды – это вывод из фактов. Для полного описания проблемы вам необходимо включить доказательства, которые в основном представляют собой все данные, которые бюро погоды использует для составления прогноза.

С частотной точки зрения это свидетельство можно рассматривать как эксперимент; дождь или отсутствие дождя на следующий день является исходом. Итак, предположим, что ваше свидетельство — это таблица показаний барометра и скорости ветра в течение дня, и вы делаете свой прогноз 60-процентной вероятности дождя, основываясь только на этом свидетельстве. Для частотника прогноз верен тогда и только тогда, когда в 60% случаев, когда у вас есть эти точные показания, на следующий день идет дождь, а в 40% случаев — нет.

Конечно, вы никогда больше не увидите эти точные показания, так что вы не сможете таким образом измерить свою точность; вместо этого мы можем написать функцию, которая сопоставляет диаграмму показаний барометра и показаний скорости ветра с предсказанием дождя на следующий день, затем мы измеряем, идет ли дождь в 10% случаев, когда модель предсказывает вероятность дождя 10%, 20% времени, когда модель предсказывает вероятность дождя 20% и т. д.

Заявления о том, что вероятность дождя завтра на севере страны составляет 60%, не могут быть проверены. Будет дождь или не будет. Это может быть совпадением, что синоптик только что заявил о 99-процентной вероятности дождя на севере. Если бы уже целую неделю было солнечно и если бы на севере действительно шел дождь на следующий день, его бы считали чудо-метеорологом. Но сохранить этот статус будет очень сложно.

Как вы можете когда-либо проверить, что шанс действительно был 50% или 60%. От этого зависит, какому метеорологу можно доверять. Единственное, что нужно сделать, это позволить нескольким Землям развиваться с несколько разными начальными условиями и посмотреть, сколько из них показывают, какие погодные условия. Как вы будете делать это в реальности? Делая аппроксимации текущей погоды и позволяя вариациям абстрактной картины погоды развиваться на компьютере. Для каждого другого исходного паттерна будет возникать другой паттерн. Вероятность дождя — это количество различных моделей дождя на севере, деленное на общее количество моделей.

Существуют различные уровни аппроксимации и различные схемы расчетов. Кто из них прав, трудно сказать. Будет дождь или нет. Разные приближения и разные теоретические расчеты дают разную вероятность. Какой из них правильный, можно узнать только так, как я уже упоминал. Но этот путь реализовать невозможно *в отличие от броска игральной кости).

Вы можете подумать, что шансы правдоподобны, взглянув на более ранние прогнозы синоптиков. Если он предсказал правильно в прошлом, тогда вы можете быть уверены, что он не просто так вам что-то скажет. С вероятностью 59% он имеет в виду, что просто не знает (принимая во внимание только компьютеры). С вероятностью 90% вы сможете взять с собой зонт. Если ты ей доверяешь.

Если вы больше доверяете другому способу предсказания, вам следует прислушиваться к другим видам предсказания. Я могу предсказать, что следующей зимой температура будет ниже, чем сейчас (измерение в течение недели и среднее значение). Это на 99% правда. Я даже могу предсказать, что средняя температура на Земле повысится в ближайшие 25 лет. Для этого не нужен компьютер. И я слушаю хопи, когда они говорят, что огромное облако прольет дождь из горячего пепла, когда температура поднимется и лицо планеты слишком сильно изменится из-за людей.