Филогенетические алгоритмы: как интерпретировать несколько деревьев машинного обучения из одного и того же набора данных?

Меня все еще смущает то, как много из этих алгоритмов работают и как результаты представлены в литературе.

Давайте рассмотрим алгоритм на основе максимального правдоподобия, такой как MrBayes или RAxML: пользователи устанавливают начальное число случайных чисел, которое генерирует начальное дерево. Для многих наших наборов данных разные начальные значения приводят к разным результатам машинного обучения, поскольку алгоритмы инициализируются с разными деревьями.

Я не совсем уверен, как это следует интерпретировать, тем более, что мой опыт работы с методами ML заключается в том, что начальный шаг не имеет отношения к глобальному/локальному минимальному/максимальному значению в пространстве параметров ---- цепи просто занимают больше времени для сходимости .

Как следует интерпретировать эти результаты? Должны ли пользователи запускать тысячи деревьев с разными значениями параметров, а затем выбирать наиболее оптимальное значение вероятности? Это кажется довольно случайным, как и начальная загрузка и т. Д.

Является ли набор данных принципиально ошибочным?

MrBayes определенно не использует максимальную вероятность, как следует из его названия.
@kmm Пытался сделать этот вопрос актуальным для нескольких алгоритмов, но потерпел неудачу. Спасибо за помощь! попробую отредактировать

Ответы (1)

Короче говоря, вы выбрали два примера, которые не используют максимальную вероятность, как вы знаете, в других контекстах. В большинстве статистических контекстов ML представляет собой одно число, которое можно рассчитать аналитически, поэтому оно всегда одинаково для заданного набора данных. Это не относится ни к MrBayes, ни к RAxML, но по разным причинам.

мистер Байес

Критерием правдоподобия в MrBayes является предельное правдоподобие апостериорного, учитывая фактически данные, обусловленные априорными. Эта вероятность исходит из стохастической выборки MCMC пространства параметров. Если все хорошо себя ведет, то цепи и/или прогоны сойдутся в одном и том же общем месте. Но тогда необходимо каким-то образом обобщить различные возможные топологии.

RAxML

RAxML генерирует по существу случайные начальные деревья путем добавления случайных последовательностей для создания деревьев. Затем поддеревья перестраиваются, чтобы найти «лучшее» дерево. Опять же, разные отправные точки могут привести к разным лучшим деревьям. Но если все пойдет хорошо, анализы приведут к одному и тому же дереву. Этот процесс описан в этой главе .

В обоих случаях, если вы начнете в другом месте, вы можете оказаться в другом месте. Может быть много деревьев, которые в пределах некоторого критерия равновероятны. Если вы знакомы с методами экономии, аналогия будет аналогией с несколькими одинаково экономичными деревьями.

Я не уверен, что следую этому: «Если все работает хорошо, то цепочки и/или прогоны сойдутся в одном и том же общем месте. Но тогда необходимо каким-то образом суммировать различные возможные топологии». (1) Если цепи сходятся в одном и том же общем месте, не будут ли топологии эквивалентны? (2) Как можно обобщить различные топологии — деревья консенсуса?
Кроме того, «может быть много деревьев, которые в пределах некоторого критерия равновероятны. Если вы знакомы с методами экономии, аналогия будет аналогией с несколькими одинаково экономными деревьями». Как же тогда поступать в литературе? Вы сообщаете обо всех равновероятных деревьях? Использовать (снова) методы дерева консенсуса?
Вместо одного дерева с наивысшей (максимальной) вероятностью существует семейство деревьев, все из которых возможны, просто некоторые более вероятны, чем другие. Топологии не обязательно должны быть эквивалентными. Дерево консенсуса - это сводка тех деревьев, которые считаются наиболее вероятными или заслуживающими доверия (в байесовском смысле). Да, вы бы сообщили дерево консенсуса (или столько, сколько хотите).