Почему LIGO вводит данные вслепую, а БАК — нет?

В группе LIGO есть команда, которая периодически выдает поддельные данные , указывающие на возможную гравитационную волну, не информируя об этом аналитиков. Мой друг, работающий над анализом данных БАК, сказал мне, что ни одна из групп БАК не занимается этим. Почему в одном из этих ресурсоемких проектов используется слепая инъекция данных, а в другом нет?

Возможно, потому что в одном случае вы стреляете в цель и проверяете, не попали ли вы, а в другом вы ждете сигнала пожарной тревоги, чтобы принять меры, а в последнем случае лучше быть готовым.
Как бы вы сказали разницу? LIGO ищет что-то прямолинейное и хорошо понятное с теоретической точки зрения. LHC ищет вещи, которые никогда не были замечены, и если вы подделаете что-то с помощью генераторов событий, которые могут произойти на основе текущей модели, аналитики данных сделают правильный вывод, что это происходит.

Ответы (4)

После того, как они рассказали мне о своей впечатляющей «Олимпиаде БАК», на которой физики (часто заядлые теоретики) реконструировали модель физики элементарных частиц из необработанных (но поддельных) данных БАК, я предложил ту же идею группе физиков в Гарварде, включая Нима Аркани-Хамед, где-то в 2005 году, и мы довольно подробно работали над идеями этого БАК. Мы думали, как забавно было бы ввести какие-то признаки дополнительных измерений и много чего еще. Мы также признавали рост энтузиазма, который это могло вызвать в сообществе физиков элементарных частиц.

Основная причина, по которой это «упражнение», вероятно, не так важно для БАК, как для LIGO, заключается в том, что физики элементарных частиц — экспериментаторы и феноменологи — в любом случае выполняют множество подобных упражнений, даже если им не говорят, что «это являются реальными (но фальшивыми) данными с БАК». Феноменологи заранее обдумывают множество «возможных сигналов» и т. д. Им не нужна дополнительная «тренировка» такого же рода.

Кроме того, LIGO почти всегда обнаруживает скучный шум, поэтому, если часть этого шума перезаписывается, LIGO не теряет много ценных данных. Однако, даже если ожидается, что LHC все время будет создавать процессы, подобные Стандартной модели, их структура будет более сложной, чем какой-то безымянный «шум». Таким образом, перезаписывая реальные данные чем-то с примесью фальшивого сигнала, можно действительно исказить данные для многих анализов. Настоящая работа многих людей, которая занимает слишком много времени, может оказаться бесполезной, и просить о ней слишком много.

Здесь разница действительно в том, что LIGO была почти уверена, что не получит никакого реального сигнала примерно в 2010 году. Таким образом, физикам в LIGO не над чем было работать, и не терять свои навыки, "была хорошая идея. С другой стороны, БАК анализирует реальные данные БАК с ранее непроверенных энергий, таких как 13 ТэВ, и есть значительная вероятность того, что они что-то обнаружат даже без инъекций. Так что инъекции не нужны — люди и так много работают над интересными, структурированными данными.

Связанное с этим отличие состоит в том, что сила сигнала LIGO быстро нарастает во время тех сигналов 0,2, которые были получены при слиянии черных дыр. С другой стороны, сила сигнала БАК накапливается в течение целого года и более. Если бы все интересные новые физические события на БАК происходили слишком быстро (за сутки), а затем исчезали, экспериментаторы могли бы увидеть что-то подозрительное. БАК должен будет загрязнять сигнал на протяжении всего цикла, и он не будет знать, насколько сильным должно быть загрязнение в единицу времени бурения. Сигнал всегда становится сильнее, если зафиксировать больше столкновений LHC, но единичное событие, обнаруженное LIGO, не может быть «усилено» таким ожиданием. Таким образом, учение LIGO — это четко определенная кампания, которая занимает некоторое конечное время, в то время как учение LHC может быть кампанией «неопределенного времени».

Как в основном сказал CuriousOne, но я скажу по-другому, на БАК также есть много других возможных открытий . Таким образом, изобрести один конкретный «фальшивый сигнал» может быть очень проблематично — какой сигнал лучше всего вводить? Случай с LIGO был совсем другим. Поддельный сигнал 2010 года на самом деле был слиянием черных дыр, очень похожим на фактическое открытие 2015-2016 годов. Таким образом, было в основном «единственное наиболее вероятное первое открытие» — сценарий столь же уникальный и специфичный, как пожар в небоскребе — так что конкретное упражнение для этого сценария имело определенный смысл.

Позвольте мне сначала упомянуть, что БАК в некотором роде является экспериментом из учебника: у вас есть очень хороший контроль над экспериментальными условиями, и вы можете повторять свой эксперимент так часто, как хотите. Таким образом, у вас есть полный контроль над сигналом. Результаты воспроизводимы в том смысле, что вы просто повторяете эксперимент. LIGO — это «просто» детектор: в частности, вы абсолютно не контролируете сигнал. Это делает два эксперимента очень разными, и то, что интересно для одного эксперимента, может быть неинтересно для другого.

Вот несколько причин, по которым я вижу, почему это на самом деле невозможно для LHC:

  • LIGO зависит от отдельных событий, а LHC — нет. Если БАК что-то и находит, это всегда основывается на множестве раундов экспериментов и миллиардах столкновений, чтобы получить необходимую статистику. Если LIGO что-то и находит, то это основано на одном сигнале длительностью всего несколько миллисекунд. Это означает, что для того, чтобы подделать сигнал LHC, вам нужно манипулировать им месяцами, а для того, чтобы подделать сигнал LIGO, вам нужно манипулировать, может быть, секундой набора данных. Кроме того, если вы манипулируете данными за месяцы, есть большая вероятность, что вы также манипулировали хорошими данными, которые привели бы к важному открытию.

  • Сигнал LHC — это частицы, сталкивающиеся друг с другом, которые затем немедленно обнаруживаются огромным количеством очень разных детекторов в двух экспериментах (ATLAS и CMS). Хотя это можно сделать с помощью симуляций Монте-Карло, как указал CuriousOne, кажется, что для LIGO все еще намного проще: LIGO — это «просто» интерферометр Майкельсона: чтобы подделать сигнал, вы двигаете зеркалами, потому что это меняет длина пути лазера, которую вы когда-либо измеряли (это описано в вашей статье).

  • Как сказал CuriousOne: БАК обнаруживает много вещей, которые хорошо известны, но что нас действительно интересует, так это вещи, о которых мы понятия не имеем, как они должны выглядеть (ну, не совсем так: у многих людей есть много идей, но никто согласен и со всеми идеями не очень понятно как будет выглядеть точный сигнал). Напротив, мы довольно хорошо знаем, что ищем в LIGO.

Внедрение поддельных данных в эксперимент может быть выполнено с помощью программного обеспечения. Нет необходимости вводить его на уровне детектора или даже на уровне DAQ. В экспериментах по физике высоких энергий нет проблем с генерацией «шума» и данных о событиях, то есть с контролем работы детектора. Детекторы настолько сложны, что их реакцию нельзя «отменить» математически. Вместо этого мы калибруем генераторы событий Монте-Карло и модели детекторов, чтобы они выглядели как реальные «шумовые» данные, а затем ищем различия, которые происходят в моделировании, если мы изменим предположения в Монте-Карло.
@CuriousOne: Спасибо, что указали на это. Я знаю, что детекторы слишком сложны, чтобы их можно было отменить математически, и я подумал о методах Монте-Карло, но я забыл, что вы можете просто «обучить» модель, используя данные о реальном шуме. Спасибо, что указали на это. Я переписал / удалил абзац соответственно. Я бы все же сказал, что это звучит сложнее, чем шевелить зеркалом LIGO, но я думаю, что что-то немного сложнее не является веской причиной, чтобы не делать этого - что здесь не имеет значения, поскольку в любом случае есть разные причины...
Я думаю, можно согласиться с тем, что методология, используемая в физике высоких энергий, является немного странным (обратным?) и на первый взгляд сомнительным методом анализа данных... тем, который, безусловно, обусловлен сложностью проблемы, а не желанием физиков. сделать это таким образом. Все, что я хочу сказать, это то, что можно, конечно, вставлять поддельные данные таким образом, чтобы аналитики не знали, но, похоже, от этого можно получить относительно немного, особенно потому, что это может иметь последствия, если они запятнают МС. В одном эксперименте, над которым я работал, были очень горячие дискуссии о поддельных данных испытаний. :-)

Внедрение ложных событий — лишь одна из нескольких схем «слепого» анализа. Другие схемы ослепления включают в себя манипулирование некоторыми параметрами данных, которые показывают группе аналитиков, путем некоторого обратимого преобразования, нескольких независимых анализов и пробных прогонов полного анализа смоделированных данных.

Важно понять, каким целям служат эти действия.

  • Внедрение поддельного события

    Он лучше всего работает, когда выходные данные детектора просты (в случае LIGO это в основном один временной ряд для каждого из интерферометров), а ожидаемый сигнал достаточно хорошо понятен и наиболее полезен, когда реальные события происходят редко. . Он служит для репетиции и проверки процесса, который будет использоваться при наблюдении за реальным событием.

    KamLAND регистрировал примерно одно реальное событие в день, поэтому обнаружения не были очень редкими, но отдельные обнаружения были отмечены сменной бригадой в первые дни эксперимента. К тому времени, как я присоединился к эксперименту, у них уже была процедура «онлайн-обнаружения событий», которая срабатывала пару раз за смену и служила для того, чтобы держать вас в напряжении. Это были не поддельные данные, а фильтр грубой очистки. Тем не менее это означало, что сменщики должны были регулярно тренировать свою реакцию на событие данных.

    Природа данных на большом составном детекторе, таком как на БАК, сильно отличается. Для процессов, представляющих интерес, сигналы не дискретны, а формируются набором событий и всегда имеют нетривиальный фон. Поддельные сигналы и сопутствующие им фоны должны быть сгенерированы крупномасштабным моделированием методом Монте-Карло и объединены в поддельный поток данных, а затем снова разделены для проверки предлагаемого анализа — процесс, который происходит все время, но происходит в автономном режиме.

  • Обратимое преобразование данных.

    Основное преимущество проведения «слепого анализа» такого рода заключается в том, что он не позволяет аналитической группе принимать решения о том, как установить разрезы из (предположительно бессознательного, но это также работает против некоторых злонамеренных манипуляций) предубеждения относительно того, как результаты "должен" выйти.

    The грамм 0 Эксперимент со слабым форм-фактором протона в JLAB использовал мультипликативную шкалу (хранящуюся в автономном режиме в безопасном месте и известную только нескольким старшим членам коллаборации, не участвовавшим в анализе), применяемую, например, к мгновенной асимметрии. В этом случае основным отчетным результатом эксперимента должен был быть размер этой асимметрии, поэтому манипуляция предотвратила оптимизацию анализа для получения предпочтительного результата.

  • Несколько отдельных анализов

    Здесь две или более команд работают над данными с нуля независимо друг от друга, а сравнение полученных результатов проводится лишь изредка и в публичных условиях. Идея состоит в том, что каждая команда должна будет решать одни и те же проблемы и будет — в силу того, что делает это по отдельности — иногда решать их по-разному. Если результаты анализа устойчивы перед лицом немного отличающейся обработки данных, вы можете быть более уверены в них; с другой стороны, если команды не согласны, их просят выступить в качестве защитников своей собственной точки зрения перед лицом проверки со стороны как остальной части сотрудничества, так и других команд, пока не будут устранены различия в результатах. Я видел, как это используется дизайном на грамм 0 , KamLAND и Double Chooz, и он естественным образом используется практически в любом крупном проекте только потому, что области интересов различных рабочих групп пересекаются.

    Как я уже отмечал ранее, CMS и ATLAS представляют собой своего рода суперверсию этого процесса, где различаются даже детали их детекторов. Вот почему их объединённое объявление об открытии бозона Хиггса было более убедительным, чем одно объявление с аналогичной статистикой.

  • Вызов Монте-Карло без интернета.

    В этой схеме аналитической группе или ее подмножествам предоставляется полностью фальшивый поток данных, построенный так, чтобы иметь все ожидаемые сигналы и предпосылки (и, возможно, некоторые «особые» данные), и просят разделить размер различных вкладов. Это пробный прогон для полного анализа данных, сделанных по рабочему набору, который полностью понимается какой-то частью совместной работы, не входящей в состав аналитических групп. Я видел, как это делается в больших масштабах для Double Chooz и MicroBooNE.

Эксперимент LIGO состоит из обнаружения отдельных событий характерной формы, которые происходят менее чем за секунду. Учитывая высокие ставки и возможность обнаружения только одного или нескольких событий, имело смысл провести пробный прогон протокола обнаружения, чтобы оценить его надежность и достоверность.

БАК отслеживает миллионы столкновений в секунду, а события, которые привели к открытию бозона Хиггса, накапливались месяцами и годами. Вывод о существовании бозона Хиггса не следует из одного (или даже нескольких) событий, поэтому проверять протокол обнаружения так же, как и для гравитационных волн, не имеет смысла.