Как выглядят данные на разных этапах анализа столкновения частиц?

Я следил за новостями о работе, которую они проводят на ускорителе частиц LHC в ЦЕРНе. Мне интересно, как выглядят необработанные данные, которые используются для визуализации столкновений. Может быть, кто-то может предоставить образец csv или txt?

Имейте в виду, что данные с LHC поступают в терабайтах, и потребности в обработке создали совершенно новый способ обработки данных, называемый GRID. cdsweb.cern.ch/record/840543/files/lhcc-2005-024.pdf . Он описывает обработку данных.
ЦЕРН недавно выпустил 300 ТБ данных: cms.web.cern.ch/news/cms-releases-new-batch-research-data-lhc

Ответы (2)

Различные части оборудования будут давать несколько разные данные, но обычно они состоят из напряжений, определяемых как функция времени. В одних случаях (искровые камеры, например) "напряжение" цифровое, а в других - аналоговое.

Традиционно временной ряд для данных медленнее, чем время, необходимое частицам (почти со скоростью света) для прохождения детектора. Таким образом, у нас была эффективная фотография для одного эксперимента. Более современное оборудование работает быстрее, но они по-прежнему отображают данные таким образом. Вот пример БАК:

введите описание изображения здесь

В приведенном выше примере данные были организованы для отображения в соответствии с формой и геометрией детектора. Сами необработанные данные будут оцифрованы и представляют собой просто набор нулей и единиц.

Обычно существует два типа измерений: «положение» и «энергия». Измерения положения обычно являются бинарными, то есть они показывают, что частица либо прошла через этот (очень маленький) элемент, либо нет. На приведенном выше рисунке желтые линии — это измерения положения.

Обратите внимание, что некоторые желтые линии изогнуты. На самом деле все они кривые, по крайней мере некоторые. Это связано с наличием сильного магнитного поля. Кривизна треков частиц помогает определить, что это за частицы. Например, при одинаковой скорости и заряде более тяжелая частица будет двигаться более прямолинейно.

Радиус кривизны определяется по формуле:

р знак равно м γ Е п Б
куда γ знак равно 1 / 1 ( в / с ) 2 фактор Лоренца, Е это энергия, а п это импульс. Это помогает определить тип и энергию частицы.

Измерения энергии, как правило, аналоговые. В них можно получить представление о том, сколько энергии было выделено частицей по мере ее прохождения. На приведенном выше светло-синем и красном фоне показаны измерения энергии. Для этих измерений нельзя получить такое точное положение, но амплитуда очень точна.

Обратите внимание, что это представление даже отдаленно не является «сырым». Значительная реконструкция и отслеживание уже были сделаны.
Это просто потрясающая наука, спасибо. Я все же хотел бы увидеть часть данных, генерируемых сенсорными элементами, а также, возможно, на различных этапах реконструкции/агрегации. Вы можете помочь с этим?
Другой комментарий: «Обычно временной ряд для данных медленнее, чем время, необходимое частицам (почти со скоростью света) для прохождения детектора». чаще всего неверно. Большинство элементов детектора имеют временное разрешение в масштабе 1–10 нс, что соответствует порядка 1–10 футов (0,3–3 метра) при с . В случае с большим коллайдерным детектором, как показано здесь, инструмент находится на расстоянии 10 или более метров в сторону. Во многих случаях время пролета используется для идентификации частиц.
Причина, по которой я спрашиваю, состоит в том, чтобы развлечь мысленный эксперимент вокруг того, «Как открытие научных данных для масс может помочь в продвижении данной области. Это может быть глупым вопросом, поскольку любой, кто увлечен данными о столкновениях частиц, скорее всего, уже работает с ними. . Есть ли какая-либо ниша в процессе данных датчиков >> преобразование >> анализ >> заключение, которое может быть заполнено корпорацией или сообществом открытого исходного кода?Может ли коммерческая корпорация сыграть роль в физических данных, где это взаимовыгодно? ?
@dmckee; Да, мое воспоминание из 1980-х, поправлю. @opensourcechris; Думаю, тебе стоит поговорить с кем-нибудь в лаборатории. Я предполагаю, что большая часть этого делается академическими кругами, и они доверяют себе больше, чем другим.
@Карл, вы должны добавить, что из кривизны также получается импульс, который вместе с измерениями энергии помогает определить массу частицы.
@opensourcechris это было бы бесполезным упражнением. Необработанные данные бесполезны без метаданных, включая содержимое журналов смены, присматривающей за детекторами. Ниши для получения прибыли возникают, когда детекторы создаются. Многие переданы в промышленность. Нет никакой выгоды от сбора данных для распространения. Институты платят даже за публикации.
@opensourcechris Я думаю, что, вообще говоря, главное, что мешает учреждениям публиковать данные, — это чрезмерная пропускная способность, необходимая для предоставления их всем. LHC, например, производит один петабайт необработанных данных каждую секунду. Автоматические фильтры удаляют шум и бесполезные данные, и записывается только небольшая их часть. По окончании этих сокращений ежегодно записывается только 25 петабайт. Это огромный объем данных, только 20% или около того из них хранятся в ЦЕРН, а остальные распространяются среди аффилированных организаций.

Много лет назад, будучи аспирантом факультета физики элементарных частиц, я работал над экспериментом PHENIX в BNL . До того, как я появился (думаю, ближе к концу прогона 2), основная структура данных, используемая для анализа, называлась «кортеж». Кортежи были очень похожи на списки, используемые сегодня в Python, с немного большей структурой, чтобы сделать доступ быстрее, и содержали фактические данные, соответствующие тому, что мы назвали «событием» (что-то интересное, что произошло в детекторе, который был захвачен различными подсистемами и в конечном итоге записывается в кортеж). К сожалению, кортежи, как правило, были слишком большими, и нужно было анализировать меньшее подмножество записей в кортежах — так родились микрокортежи, а вскоре после этого и нанокортежи.

Различные типы нанокортежей были определены и использовались различными рабочими группами в эксперименте, которые имели разные подмножества исходных кортежей. Какой тип нанокортежа вы использовали, зависело от анализа, который вы пытались провести, и примерно соответствовал рабочей группе, в которой вы находились. В моем случае это был тяжелый аромат, где я изучал обаяние.

Таким образом, нано-кортеж может выглядеть так:

(x_1, x_2, ..., x_n)

где x_i будет представлять собой все различные величины, представляющие интерес, связанные с событием: поперечный импульс, энергия, выделенная в ЭМ-кал, бла, бла, бла...

В конце концов, анализ данных вращался вокруг манипулирования этими нанокортежами и составил:

  1. Отправьте запрос специалистам по данным, чтобы получить необработанные данные, собранные различными подсистемами, в виде нанокортежей.
  2. Подождите пару дней, пока данные появятся на диске, так как это был огромный набор данных.
  3. Перебрать события (нано-кортежи), отфильтровав то, что вас не интересовало (обычно события, связанные с пионами).
  4. Бин данных в каждой записи кортежа
  5. Наложите теоретический прогноз этих распределений поверх того, что вы извлекли из кортежа.
  6. Сделайте свое заявление о том, что происходит. (подтверждение теории, предположение о несогласии и т.п..)

Правда в том, что мы редко смотрели на RAW, необработанные данные, поступающие из детектора, если только вы не были на смене и часть системы сбора данных по какой-то причине не перестала работать. Но в этом случае данные были довольно бессмысленными, когда вы смотрели на них. Вас бы больше беспокоило, что данные не передаются. Однако, если бы вы были одним из людей, ответственных за обслуживание подсистемы (скажем, EM-cal), то вы, вероятно, регулярно выполняли бы калибровку и регулярно просматривали необработанные данные из вашей конкретной подсистемы, чтобы настроить калибровку и сделать необработанные данные. данные поддаются анализу.

В основном необработанные данные имели значение только для подсистемы, за которую вы отвечали, и рассмотрение всех необработанных данных из всех подсистем в целом на самом деле не проводилось. Я не думаю, что у кого-то была такая широта во всех различных подсистемах...

Что касается данных для визуализаций, о которых вы спрашивали: я полагаю, что это были специально определенные нано-кортежи, в которых были записи из достаточного количества подсистем, чтобы можно было провести реконструкцию и окончательную визуализацию (красивые картинки), но я на 99% уверен, что визуализации были не такими. t создается из «сырых» данных. Скорее они были сделаны с использованием этих нанокортежей.

Если вы покопаетесь на веб-сайте PHENIX, вы увидите довольно причудливую анимацию (по крайней мере, причудливую для того времени) столкновений в детекторе. В основном эти фото и видео были частью более крупного эксперимента по пиару. Они были сделаны парнем по имени Джеффри Митчел, и вы должны написать ему, чтобы узнать больше о формате данных, которые он использовал (mitchell@bnl.gov). они уже давно ушли, так что вы, вероятно, сможете получить больше информации о «сырых» данных, созданных БАК сегодня и используемых для этих визуализаций, если вы спросите кого-то вроде него напрямую.