Бинирование или просто пропуск значений в симуляции, чтобы избежать автокорреляции

Учитывая набор данных из общего моделирования Монте-Карло Икс я , ( 1 "=" 1 , . . . , Н ) , ожидается, что автокорреляция произойдет между точками данных в течение времени релаксации т (время корреляции) расстояние между собой.

Теперь я знаю, что возможный подход к уменьшению/избежанию корреляции состоит в том, чтобы настроить интервалы, намного превышающие время релаксации, и вычислить среднее значение для каждого интервала, а также ошибку.

Что, если я просто рассмотрю начальный Икс я а затем перейти к следующему Икс я + т и так далее и тому подобное для Икс я + 2 т , Икс я + 3 т ... по сути, рассматривая эти новые выборки как некоррелированные? В этом случае я не вычисляю средние значения и ошибки, я просто пропускаю достаточное количество точек, чтобы сделать оставшиеся некоррелированными.

Я читал об обоих подходах в литературе, но на самом деле я не уверен, что они оба жизнеспособны.

Ответы (1)

Оба описанных вами подхода вполне жизнеспособны и должны давать аналогичные результаты. Очевидно, что в случае просто выборки точек данных через интервалы т , вы отбрасываете промежуточные точки данных; но вы можете разумно ожидать, что они не содержат значительно больше информации, поскольку они сильно коррелируют с точками данных, которые вы делаете выборку, учитывая, что т имеет порядок времени корреляции. Но я думаю, что ничего не потеряешь, приняв метод биннинга.

Я говорю «отчасти», потому что оба метода предполагают, что вы знаете время корреляции до того, как начнете. Гораздо важнее (на мой взгляд) выбрать метод анализа данных, который существенно определяет время корреляции как часть оценки ошибки. Классическая статья по этому вопросу — Flyvbjerg and Petersen J Chem Phys, 91,461 (1989), и здесь используется подход биннинга. Короче говоря, вы начинаете с дисперсии, рассчитанной для каждой отдельной точки данных. Затем вы усредняете каждую последующую пару точек данных, давая вдвое меньше точек данных, каждая из которых представляет интервал длины 2, и вычисляете дисперсию этих точек данных. Процесс продолжается рекурсивно с интервалами длины 4, 8, 16 и т. д. и может быть запрограммирован достаточно экономично. Их анализ, основанный на идеях перенормировки, показывает, как можно использовать дисперсии в формуле, которая сходится к наилучшей оценке ошибки среднего (при условии, что прогон моделирования достаточно длинный). Метод описан в большинстве учебников по моделированию.