Меня все еще смущает то, как много из этих алгоритмов работают и как результаты представлены в литературе.
Давайте рассмотрим алгоритм на основе максимального правдоподобия, такой как MrBayes или RAxML: пользователи устанавливают начальное число случайных чисел, которое генерирует начальное дерево. Для многих наших наборов данных разные начальные значения приводят к разным результатам машинного обучения, поскольку алгоритмы инициализируются с разными деревьями.
Я не совсем уверен, как это следует интерпретировать, тем более, что мой опыт работы с методами ML заключается в том, что начальный шаг не имеет отношения к глобальному/локальному минимальному/максимальному значению в пространстве параметров ---- цепи просто занимают больше времени для сходимости .
Как следует интерпретировать эти результаты? Должны ли пользователи запускать тысячи деревьев с разными значениями параметров, а затем выбирать наиболее оптимальное значение вероятности? Это кажется довольно случайным, как и начальная загрузка и т. Д.
Является ли набор данных принципиально ошибочным?
Короче говоря, вы выбрали два примера, которые не используют максимальную вероятность, как вы знаете, в других контекстах. В большинстве статистических контекстов ML представляет собой одно число, которое можно рассчитать аналитически, поэтому оно всегда одинаково для заданного набора данных. Это не относится ни к MrBayes, ни к RAxML, но по разным причинам.
Критерием правдоподобия в MrBayes является предельное правдоподобие апостериорного, учитывая фактически данные, обусловленные априорными. Эта вероятность исходит из стохастической выборки MCMC пространства параметров. Если все хорошо себя ведет, то цепи и/или прогоны сойдутся в одном и том же общем месте. Но тогда необходимо каким-то образом обобщить различные возможные топологии.
RAxML генерирует по существу случайные начальные деревья путем добавления случайных последовательностей для создания деревьев. Затем поддеревья перестраиваются, чтобы найти «лучшее» дерево. Опять же, разные отправные точки могут привести к разным лучшим деревьям. Но если все пойдет хорошо, анализы приведут к одному и тому же дереву. Этот процесс описан в этой главе .
В обоих случаях, если вы начнете в другом месте, вы можете оказаться в другом месте. Может быть много деревьев, которые в пределах некоторого критерия равновероятны. Если вы знакомы с методами экономии, аналогия будет аналогией с несколькими одинаково экономичными деревьями.
кмм
ШаньЧжэнЯн