В настоящее время я учусь на младших курсах по специальности физика и математика и, скорее всего, после окончания учебы буду подавать заявку на участие в программе экспериментов с высокими энергиями или наблюдательной космологии. Я довольно много раз слышал, что многие люди, изучавшие физику и математику в бакалавриате, хотели бы больше изучать информатику; особенно если их дипломные исследования связаны с экспериментами с высокими энергиями. Так как навыки CS нужны везде, даже если я уйду из академии, я попытаюсь пройти несколько курсов CS, прежде чем окончу учебу.
Вопрос: Как много и какого рода анализ данных вы проводите в программах экспериментальной/наблюдательной космологии высоких энергий?
На данный момент я планирую пройти несколько курсов по основам программирования (структуры данных и т. д.), курс по статистическому анализу для науки о данных и курс по машинному обучению.
Я отвечу с точки зрения космологии, хотя, вероятно, многое из этого относится и к hep-ex.
Вы должны стремиться к хорошим практическим знаниям Python, так как это лингва-франка в космологии. Кроме того, полезно быть знакомым с Fortran или C, так как некоторые из более крупных кодов числовой космологии, такие как CAMB и CLASS, написаны на них.
В частности, для наблюдательной космологии вам следует научиться работать с большими наборами данных и файлами изображений, особенно с файлами FITS. Если вы собираетесь использовать существующие базы данных изображений, спектров и т. д., изучение SQL также будет полезно.
Наконец, подавляющее большинство статистического анализа в космологии следует байесовской, а не частотной структуре, поэтому понимание основных концепций этого, а также таких методов, как вывод параметров MCMC, будет полезно.
Методы машинного обучения становятся все более популярными, хотя настоящих специалистов в этой области мало. Любые знания и опыт использования машинного обучения, особенно методов классификации и регрессии, будут бонусом.
Если бы я был на вашем месте, я бы взглянул на некоторые недавние статьи в вашей конкретной области интересов, чтобы получить представление о конкретном анализе данных и используемых вычислительных методах, поскольку они будут довольно сильно отличаться от проекта к проекту даже в рамках космологии. Вы можете найти соответствующие статьи в разделе astro-ph.co на arXiv.
Это будет сильно зависеть от конкретных задач, в которые вы вовлечены. В большинстве лабораторий есть местный гуру, который может помочь вам начать работу, если вы хорошо к нему относитесь. И на большинстве крупных проектов таких гуру будет несколько.
Экспериментальный HEP, естественно, будет иметь большую аппаратную составляющую. Если вы можете ремонтировать, диагностировать, собирать или устанавливать какое-либо электронное или компьютерное оборудование, вы можете пойти в лабораторию. Но подумайте, сколько времени это займет, что могло бы быть использовано для написания вашей диссертации. Если вы можете закодировать схемы контроллера для оборудования, это может быть полезно с той же оговоркой. И во всех таких случаях вы можете конкурировать с лаборантами.
Но кандидатская диссертация, в которой вы изобрели какую-то новую вещь, которая помогла в какой-то большой лаборатории, вероятно, имела бы большой успех.
Будет тонны числового анализа. Обработка сигнала для понимания и «декодирования» выходного сигнала детектора. Например, некоторые эксперименты включают запись огромного количества событий-кандидатов, а затем их фильтрацию, чтобы найти конкретную категорию событий, которые вы ищете. База данных, фильтрация ИИ и просто обработка чисел. Скажем из такой книги, как Numerical Recipes . Обратите внимание, что существуют версии этой книги для нескольких различных языков программирования, включая C, C++, FORTRAN и, возможно, другие. И вы должны относиться к этой книге как к «первому введению» в изложенные в ней темы, ища более продвинутые и мощные методы, если вы начнете работать в этой области. Но это дает вам много вещей в форме, в которой вы можете «поднять кривую».
Еще одна целая тема — методы Монте-Карло. Это метод проведения численных экспериментов, чтобы попытаться предсказать частоту различных событий, используя для этого кучу случайных чисел. Это могло бы прийти к данным с другого конца, пытаясь предсказать, что увидит детектор в случае определенного события. Возможно, вы сможете определить «отпечаток пальца» данного события. Ищите эту комбинацию, и вы знаете, что нашли неуловимого антишмадрона.
Еще одна область — визуализация данных. Когда вы делаете какой-то ужасно большой набор данных, полученный в результате какого-то эксперимента, вы хотите каким-то образом представить информацию, чтобы люди могли ее понять. Часто ты первый. (Ухмыляется.) Может быть, вы хотите изучить приложения, которые работают с такими вещами, как MATLAB и подобными. Или, может быть, вы хотите научиться делать 3-D визуализацию. Есть несколько популярных приложений, которые занимаются этим, но я ими не занимался.
Если вы проектируете детектор (или какое-то подобное оборудование), вам может понадобиться изучить программное обеспечение 3D CAD/CAM. Опять же, есть несколько популярных, но я их не знаю.
Сельский читатель