Почему модели Маркова пятого порядка чаще всего используются для предсказания генов?

Насколько нам известно, наименьшая длина полипептидной цепи составляет 60 аминокислот, поэтому, если мы найдем открытую рамку считывания (ORF) из примерно 60 кодонов без прерывания стоп-кодона, мы можем рассматривать ее как возможную кодирующую область или ген.

Марковская модель пятого порядка использует гексамерную частоту для предсказания областей кодирования, однако это не кажется очень конкретным.

Почему бы нам не использовать модели Маркова более высокого порядка с более высокими частотами и большей специфичностью? Разве увеличение порядка марковских моделей не предотвратит ложноположительные результаты?

На самом деле мы не знаем, что «наименьшая длина полипептидной цепи составляет 60 аминокислот». Это чисто искусственная отсечка, а не биологически значимая. Несомненно, существует множество функциональных полипептидов, которые намного меньше , но не были правильно аннотированы.
Вы также должны помнить, что эукариотические гены более высокого порядка прерываются. Если все экзоны в искомом гене имеют длину менее 180 нуклеотидов, то вы его упустите. вы также должны учитывать акцепторные и донорные сайты сплайсинга, альтернативные формы сплайсинга, кодоны для метионина, которые не указывают на начало рамки считывания, и т. д. Подумайте об этом таким образом; увеличивая строгость, вы выбрасываете больше информации. Большая часть этой информации плохая, но не вся, а это означает, что вы создаете ситуацию, когда вы упускаете то, что хотите.
1. Почему вы так уверены, что люди придерживаются цепей Маркова 5-го порядка? 2. Это сводится к обучению матрицы перехода состояний, т. е. увеличение порядка приводит к экспоненциальному увеличению количества возможных k-меров, поэтому в какой-то момент вашей выборки становится недостаточно для достаточно уверенной оценки скорости перехода, не говоря уже о вычислительной сложности.

Ответы (1)

Проблема со все более сложными HMM заключается в том, что их пространство параметров имеет тенденцию взрываться с n-м порядком HMM. Большее количество параметров часто невелико, потому что оно уменьшает возможное количество наблюдений, которые используются при обучении каждого параметра, и может увеличить переоснащение модели.

Из информации, которую вы предоставляете, возможно, что модель 5-го порядка достигает наилучшего результата, обеспечивая отличную производительность с разумно ограниченным пространством параметров.

Непонятно как ваша модель тоже работает.

Является ли каждое состояние одним нуклеотидом или одним KMER?

Является ли это обобщенным HMM с отдельными состояниями для экзонов и интронов с наблюдениями KMER?

Работа лаборатории Бира показала, что 5-меры очень хорошо отличают энхансеры от фона, используя модель SVM для классификации. В вашем контексте кажется довольно разумным использовать 6-меры для поиска генов с учетом этого открытия.

Для получения более подробной информации, пожалуйста, ознакомьтесь с «Анализом биологических последовательностей» Шона Эдди и работой доктора Майкла Брента из Вашингтонского университета в Сент-Луисе (его лаборатория провела много исследований HMM для поиска генов).

Было бы полезно иметь одну или несколько бумажных ссылок на ваш вопрос.