Какие навыки информатики используются (если таковые имеются) в программах HEP по экспериментальной или наблюдательной космологии?

В настоящее время я учусь на младших курсах по специальности физика и математика и, скорее всего, после окончания учебы буду подавать заявку на участие в программе экспериментов с высокими энергиями или наблюдательной космологии. Я довольно много раз слышал, что многие люди, изучавшие физику и математику в бакалавриате, хотели бы больше изучать информатику; особенно если их дипломные исследования связаны с экспериментами с высокими энергиями. Так как навыки CS нужны везде, даже если я уйду из академии, я попытаюсь пройти несколько курсов CS, прежде чем окончу учебу.

Вопрос: Как много и какого рода анализ данных вы проводите в программах экспериментальной/наблюдательной космологии высоких энергий?

На данный момент я планирую пройти несколько курсов по основам программирования (структуры данных и т. д.), курс по статистическому анализу для науки о данных и курс по машинному обучению.

Изучите концепции и методы управления исходным кодом, а также способы разработки и взаимодействия с основными компонентами, такими как реляционные базы данных и базы данных без SQL, непрерывную интеграцию на практике, архитектуры на основе служб и т. д., хотя все это можно эффективно выполнять за пределами аудитории. Если представится возможность пройти курс численного анализа, это, вероятно, стоит. Аналогично для алгоритмов и структур данных.

Ответы (2)

Я отвечу с точки зрения космологии, хотя, вероятно, многое из этого относится и к hep-ex.

Вы должны стремиться к хорошим практическим знаниям Python, так как это лингва-франка в космологии. Кроме того, полезно быть знакомым с Fortran или C, так как некоторые из более крупных кодов числовой космологии, такие как CAMB и CLASS, написаны на них.

В частности, для наблюдательной космологии вам следует научиться работать с большими наборами данных и файлами изображений, особенно с файлами FITS. Если вы собираетесь использовать существующие базы данных изображений, спектров и т. д., изучение SQL также будет полезно.

Наконец, подавляющее большинство статистического анализа в космологии следует байесовской, а не частотной структуре, поэтому понимание основных концепций этого, а также таких методов, как вывод параметров MCMC, будет полезно.

Методы машинного обучения становятся все более популярными, хотя настоящих специалистов в этой области мало. Любые знания и опыт использования машинного обучения, особенно методов классификации и регрессии, будут бонусом.

Если бы я был на вашем месте, я бы взглянул на некоторые недавние статьи в вашей конкретной области интересов, чтобы получить представление о конкретном анализе данных и используемых вычислительных методах, поскольку они будут довольно сильно отличаться от проекта к проекту даже в рамках космологии. Вы можете найти соответствующие статьи в разделе astro-ph.co на arXiv.

Спасибо за четкий ответ! Я понимаю, что C и python очень важны, и курсы по науке о данных, посвященные байесовскому анализу, — хорошая идея. Но будет ли полезен курс машинного обучения? Я хотел бы взять, если это возможно, просто потому, что это интересно.
@Chandrahas да, машинное обучение будет бонусом, если вы сможете пройти хороший курс по нему! Я также забыл упомянуть, что вы должны изучить контроль версий с помощью git. Это довольно просто, и вы, вероятно, сможете научиться этому самостоятельно за день или два (во всяком случае, основы).

Это будет сильно зависеть от конкретных задач, в которые вы вовлечены. В большинстве лабораторий есть местный гуру, который может помочь вам начать работу, если вы хорошо к нему относитесь. И на большинстве крупных проектов таких гуру будет несколько.

Экспериментальный HEP, естественно, будет иметь большую аппаратную составляющую. Если вы можете ремонтировать, диагностировать, собирать или устанавливать какое-либо электронное или компьютерное оборудование, вы можете пойти в лабораторию. Но подумайте, сколько времени это займет, что могло бы быть использовано для написания вашей диссертации. Если вы можете закодировать схемы контроллера для оборудования, это может быть полезно с той же оговоркой. И во всех таких случаях вы можете конкурировать с лаборантами.

Но кандидатская диссертация, в которой вы изобрели какую-то новую вещь, которая помогла в какой-то большой лаборатории, вероятно, имела бы большой успех.

Будет тонны числового анализа. Обработка сигнала для понимания и «декодирования» выходного сигнала детектора. Например, некоторые эксперименты включают запись огромного количества событий-кандидатов, а затем их фильтрацию, чтобы найти конкретную категорию событий, которые вы ищете. База данных, фильтрация ИИ и просто обработка чисел. Скажем из такой книги, как Numerical Recipes . Обратите внимание, что существуют версии этой книги для нескольких различных языков программирования, включая C, C++, FORTRAN и, возможно, другие. И вы должны относиться к этой книге как к «первому введению» в изложенные в ней темы, ища более продвинутые и мощные методы, если вы начнете работать в этой области. Но это дает вам много вещей в форме, в которой вы можете «поднять кривую».

Еще одна целая тема — методы Монте-Карло. Это метод проведения численных экспериментов, чтобы попытаться предсказать частоту различных событий, используя для этого кучу случайных чисел. Это могло бы прийти к данным с другого конца, пытаясь предсказать, что увидит детектор в случае определенного события. Возможно, вы сможете определить «отпечаток пальца» данного события. Ищите эту комбинацию, и вы знаете, что нашли неуловимого антишмадрона.

Еще одна область — визуализация данных. Когда вы делаете какой-то ужасно большой набор данных, полученный в результате какого-то эксперимента, вы хотите каким-то образом представить информацию, чтобы люди могли ее понять. Часто ты первый. (Ухмыляется.) Может быть, вы хотите изучить приложения, которые работают с такими вещами, как MATLAB и подобными. Или, может быть, вы хотите научиться делать 3-D визуализацию. Есть несколько популярных приложений, которые занимаются этим, но я ими не занимался.

Если вы проектируете детектор (или какое-то подобное оборудование), вам может понадобиться изучить программное обеспечение 3D CAD/CAM. Опять же, есть несколько популярных, но я их не знаю.

"... если вы хорошо относитесь к нему или к ней"
«Экспериментальный HEP, естественно, будет иметь большой аппаратный компонент». Это не верно. Многие экспериментаторы с частицами работают исключительно над анализом данных.
Книга «Числовые рецепты» устарела.
@AnonymousPhysicist Значит, сентиментальные люди не делают аппаратное обеспечение? ХОРОШО.