Внедрение A/B-тестов политики

Были ли случаи, когда правительство использовало «тестовые» законы для определения воздействия политики перед ее введением в действие для всего населения? Например, прежде чем выкатывать план на всю страну, дать денег региону, который хочет его протестировать, или сделать А/Б-тест с двумя регионами? Какие обоснования использовались для такого рода испытаний?

Как вы предлагаете уравнять другие условия в двух регионах, чтобы правильно проводить A/B-тесты?
«Имеет ли это смысл» — это вопрос, основанный на мнении. В зависимости от закона, регионов, на которых вы хотите его протестировать, и вашего личного порога «осмысленности» вы можете прийти к совершенно разным выводам, «имеет ли смысл» он или нет. Вместо этого вы могли бы спросить, является ли конституционным право делать это в вашем любимом избирательном округе или есть ли такие эксперименты в вашей любимой политической области. Например, действительно проводились региональные эксперименты, чтобы проверить, что произойдет, если каждый получит базовый доход или если каждый должен иметь огнестрельное оружие в своем доме.
@Philipp «имеет смысл», конечно, неправильная формулировка, поскольку я имею в виду увеличение индекса человеческого развития.
@ J.Doe В зависимости от того, как вы хотите интерпретировать «закон», можно утверждать, что это уже происходит. Во многих юрисдикциях правила и процедуры часто тестируются в небольших географических регионах, прежде чем внедряться на национальном уровне. Конечно, первичное законодательство – это другое дело.
@origimbo круто, я этого не знал; есть свежие примеры?
Это не точно географически, но в Финляндии было рандомизированное испытание универсального базового дохода как схемы социального обеспечения. В итоге решили не принимать. theguardian.com/world/2018/apr/23/…
@origimbo да: а есть географические примеры?
Ага. На самом деле я нашел несколько UBI. wired.co.uk/article/…
@origimbo был еще один в городе Кайлфорния, он появился в прессе несколько недель назад. А есть тестовые проекты, которым даются отступления от некоторых законов (например, был тест лечения наркоманов героином вместо метадона).
Я часто слышал, как США называют Лабораторией демократии. Федеральный характер США означает, что любой штат может принять закон и повлиять только на часть населения, а затем другие штаты или федералы могут увидеть результаты и принять его. объяснить какую-то ошибочную реализацию или даже отказаться от нее. Закон Обамы о здравоохранении был в значительной степени основан на Законе Массачусетса, а предлагаемый Федеральный закон о мечтах был основан на полностью реализованном Законе о мечтах Мэриленда.

Ответы (3)

Это так называемые политические пилоты. У правительства Великобритании есть обзор их около 2003 года (довольно устаревший), охватывающий США и Великобританию, но большинство из них довольно неясны, например

Схема сохранения и продвижения по службе (ERA): Цель: испытание эффективности новых услуг для улучшения сохранения рабочих мест и перспектив продвижения по службе для низкооплачиваемых работников.

или

Приказы о лечении наркомании и тестировании (DTTO) – [Исполнительная власть Шотландии] Цель: Пилотный проект для информирования решений о том, следует ли вводить DTTO в Шотландии, и предоставить доказательства материально-технических, финансовых последствий политики и снижения уровня преступности.

Также в опросе отмечается, что

В «Сборнике социальных экспериментов » Гринберга и Шредера (1997) описывается более 140 политических испытаний США того или иного рода. [...] Некоторые из этих испытаний были разработаны для измерения воздействия, некоторые процесса, а некоторые и того, и другого, но все они были направлены на то, чтобы как можно точнее оценить конкретный вариант (или набор вариантов) по сравнению с контрфактическим.

Как отмечалось в комментариях, более известен пример из Финляндии по базовому доходу .

Также в опросе Великобритании отмечается это интересное различие между США и Великобританией.

По какой-то причине большинство стратегических испытаний, которые обычно используют рандомизированные испытания отдельных лиц в США, как правило, проводятся несколько менее строгими методами в Великобритании. Отчасти это функция различных политических систем. Многие политики в США внедряются и оцениваются в одном штате до развертывания на национальном уровне и без каких-либо обязательств. Независимо от того, поддерживаются они федеральными средствами или нет, это действительно экспериментальные схемы, от которых откажутся, если они окажутся неэффективными. Более централизованная структура Британии делает подобные эксперименты и инновации более сложными. Как уже отмечалось, гораздо больше политик здесь основаны на обязательствах по манифестам или других хорошо расширенных предварительных объявлениях, что означает более сильную приверженность сторон их успеху.

По сути, большая децентрализация кажется более благоприятной для проведения таких политических экспериментов... только потому, что один регион может сам решить (поскольку он может) внедрить изменение, таким образом эффективно выступая в качестве пилота для остальной части страны; но такие пилоты не слишком хорошо контролируются с точки зрения альтернатив, помех и т. д. Возможно, «естественный эксперимент» - лучший термин для региональных пилотов, но это только мое мнение.

Квазиэксперимент может быть полезным термином для регионального пилотного проекта. Естественный эксперимент — это нечто иное: это, по сути, наблюдательное исследование, в ходе которого исследователи обнаруживают какую-то причудливую переменную, которая назначала испытуемым лечение постфактум, хотя они и не осознавали этого.

В Соединенных Штатах существует мнение, что штаты — это «испытательные полигоны» для новой политики. В этом смысле каждый штат проверяет политику до того, как федеральное правительство введет (или не введет) ее для всего населения страны.

Этому обычно учат на вводных курсах в американском правительстве в дискуссиях о федерализме, но более формально это было сформулировано судьей Верховного суда Брандейсом в 1932 году.

Например, законы об употреблении марихуаны различаются в зависимости от штата: введите описание изображения здесь[Источник — Governing Magazine]

В каком-то смысле штаты пробуют разные политики, которые позже могут быть приняты на федеральном уровне.

Интересно видеть, как терминология A/B-тестирования появляется во многих местах, от политики до кулинарии, где на самом деле сообщество веб-разработчиков и разработчиков программного обеспечения называет старые добрые научные эксперименты. Основной метод существует, по крайней мере, с 16-го века, и в течение прошлого века он был значительно усовершенствован и регулярно использовался в прикладных условиях, например, в агрономии, медицине или психотерапии. Другие области не ждали веб-тестов A/B для эмпирической оценки вмешательств, называете ли вы это «клиническими испытаниями», «экспериментами» или как-то еще. Так что это имеет смысл, и это делалось десятилетиями: многие страны регулярно внедряют политики в рамках ограниченного «пилотного» или «испытательного» периода, часто в одном штате, провинции, городе, офисе, дороге, на вокзале и т. д.

В политике и экономике одна из трудностей заключается в том, что практически невозможно использовать чисто экспериментальный подход, при котором большое количество тестовых единиц подвергается случайной обработке. В лучшем случае вы можете ввести предварительную политику для страны или нескольких регионов и сравнить с другими странами, но это только один элемент данных, и трудно выделить эффект вашего вмешательства (изменение политики) из множества других факторов (т. родственной идеей является идея « квазиэксперимента »). Вы также не можете должным образом проанализировать это на индивидуальном уровне (как если бы вы посещали веб-сайт), потому что жители определенной области имеют много общего, что может исказить результаты.

Еще один сложный вопрос — определение и измерение результата. Индекс человеческого развития представляет собой составной индекс, пытающийся обобщить несколько, предположительно независимых, переменных (хотя в данном конкретном случае этот конкретный момент оспаривается). Таким образом, вес, который вы придаете этим переменным или факторам, открыт для обсуждения. Перевод такого сложного понятия, как развитие, в измеримую величину («оперативизация») нетривиален как с практической, так и с теоретической точки зрения. И как только показатель признается чем-то желательным или используется для оценки производительности, люди будут стремиться изменить свое поведение, чтобы нацелиться на сам показатель или обыграть систему (это известно, среди прочего, как закон Гудхарта или закон Кэмпбелла).

Внедрение политики также сопряжено со значительными затратами. Вы не можете просто попробовать любое вмешательство, которое придет в голову, и получить быстрые результаты, развернув какую-то новую версию на сервере на несколько часов, чтобы никто не заметил. Вам необходимо конкретизировать политику, создать правовую основу для судебного разбирательства, заручиться поддержкой различных заинтересованных сторон, обучить государственных служащих и т. д. инвестиции в испытание, трудно получить беспристрастную оценку. К тому времени, когда испытание будет проведено, будет много людей, эмоционально, политически или финансово заинтересованных в его успехе.

Из-за этих технических трудностей оценка эффекта всегда сопряжена с трудностями и требует большого количества моделирования, и вряд ли можно надеяться таким образом «решить» политические разногласия.