Я следил за новостями о работе, которую они проводят на ускорителе частиц LHC в ЦЕРНе. Мне интересно, как выглядят необработанные данные, которые используются для визуализации столкновений. Может быть, кто-то может предоставить образец csv или txt?
Различные части оборудования будут давать несколько разные данные, но обычно они состоят из напряжений, определяемых как функция времени. В одних случаях (искровые камеры, например) "напряжение" цифровое, а в других - аналоговое.
Традиционно временной ряд для данных медленнее, чем время, необходимое частицам (почти со скоростью света) для прохождения детектора. Таким образом, у нас была эффективная фотография для одного эксперимента. Более современное оборудование работает быстрее, но они по-прежнему отображают данные таким образом. Вот пример БАК:
В приведенном выше примере данные были организованы для отображения в соответствии с формой и геометрией детектора. Сами необработанные данные будут оцифрованы и представляют собой просто набор нулей и единиц.
Обычно существует два типа измерений: «положение» и «энергия». Измерения положения обычно являются бинарными, то есть они показывают, что частица либо прошла через этот (очень маленький) элемент, либо нет. На приведенном выше рисунке желтые линии — это измерения положения.
Обратите внимание, что некоторые желтые линии изогнуты. На самом деле все они кривые, по крайней мере некоторые. Это связано с наличием сильного магнитного поля. Кривизна треков частиц помогает определить, что это за частицы. Например, при одинаковой скорости и заряде более тяжелая частица будет двигаться более прямолинейно.
Радиус кривизны определяется по формуле:
Измерения энергии, как правило, аналоговые. В них можно получить представление о том, сколько энергии было выделено частицей по мере ее прохождения. На приведенном выше светло-синем и красном фоне показаны измерения энергии. Для этих измерений нельзя получить такое точное положение, но амплитуда очень точна.
Много лет назад, будучи аспирантом факультета физики элементарных частиц, я работал над экспериментом PHENIX в BNL . До того, как я появился (думаю, ближе к концу прогона 2), основная структура данных, используемая для анализа, называлась «кортеж». Кортежи были очень похожи на списки, используемые сегодня в Python, с немного большей структурой, чтобы сделать доступ быстрее, и содержали фактические данные, соответствующие тому, что мы назвали «событием» (что-то интересное, что произошло в детекторе, который был захвачен различными подсистемами и в конечном итоге записывается в кортеж). К сожалению, кортежи, как правило, были слишком большими, и нужно было анализировать меньшее подмножество записей в кортежах — так родились микрокортежи, а вскоре после этого и нанокортежи.
Различные типы нанокортежей были определены и использовались различными рабочими группами в эксперименте, которые имели разные подмножества исходных кортежей. Какой тип нанокортежа вы использовали, зависело от анализа, который вы пытались провести, и примерно соответствовал рабочей группе, в которой вы находились. В моем случае это был тяжелый аромат, где я изучал обаяние.
Таким образом, нано-кортеж может выглядеть так:
(x_1, x_2, ..., x_n)
где x_i будет представлять собой все различные величины, представляющие интерес, связанные с событием: поперечный импульс, энергия, выделенная в ЭМ-кал, бла, бла, бла...
В конце концов, анализ данных вращался вокруг манипулирования этими нанокортежами и составил:
Правда в том, что мы редко смотрели на RAW, необработанные данные, поступающие из детектора, если только вы не были на смене и часть системы сбора данных по какой-то причине не перестала работать. Но в этом случае данные были довольно бессмысленными, когда вы смотрели на них. Вас бы больше беспокоило, что данные не передаются. Однако, если бы вы были одним из людей, ответственных за обслуживание подсистемы (скажем, EM-cal), то вы, вероятно, регулярно выполняли бы калибровку и регулярно просматривали необработанные данные из вашей конкретной подсистемы, чтобы настроить калибровку и сделать необработанные данные. данные поддаются анализу.
В основном необработанные данные имели значение только для подсистемы, за которую вы отвечали, и рассмотрение всех необработанных данных из всех подсистем в целом на самом деле не проводилось. Я не думаю, что у кого-то была такая широта во всех различных подсистемах...
Что касается данных для визуализаций, о которых вы спрашивали: я полагаю, что это были специально определенные нано-кортежи, в которых были записи из достаточного количества подсистем, чтобы можно было провести реконструкцию и окончательную визуализацию (красивые картинки), но я на 99% уверен, что визуализации были не такими. t создается из «сырых» данных. Скорее они были сделаны с использованием этих нанокортежей.
Если вы покопаетесь на веб-сайте PHENIX, вы увидите довольно причудливую анимацию (по крайней мере, причудливую для того времени) столкновений в детекторе. В основном эти фото и видео были частью более крупного эксперимента по пиару. Они были сделаны парнем по имени Джеффри Митчел, и вы должны написать ему, чтобы узнать больше о формате данных, которые он использовал (mitchell@bnl.gov). они уже давно ушли, так что вы, вероятно, сможете получить больше информации о «сырых» данных, созданных БАК сегодня и используемых для этих визуализаций, если вы спросите кого-то вроде него напрямую.
dmckee --- котенок экс-модератор
Анна В
OpenCoderX