Насколько нам известно, наименьшая длина полипептидной цепи составляет 60 аминокислот, поэтому, если мы найдем открытую рамку считывания (ORF) из примерно 60 кодонов без прерывания стоп-кодона, мы можем рассматривать ее как возможную кодирующую область или ген.
Марковская модель пятого порядка использует гексамерную частоту для предсказания областей кодирования, однако это не кажется очень конкретным.
Почему бы нам не использовать модели Маркова более высокого порядка с более высокими частотами и большей специфичностью? Разве увеличение порядка марковских моделей не предотвратит ложноположительные результаты?
Проблема со все более сложными HMM заключается в том, что их пространство параметров имеет тенденцию взрываться с n-м порядком HMM. Большее количество параметров часто невелико, потому что оно уменьшает возможное количество наблюдений, которые используются при обучении каждого параметра, и может увеличить переоснащение модели.
Из информации, которую вы предоставляете, возможно, что модель 5-го порядка достигает наилучшего результата, обеспечивая отличную производительность с разумно ограниченным пространством параметров.
Непонятно как ваша модель тоже работает.
Является ли каждое состояние одним нуклеотидом или одним KMER?
Является ли это обобщенным HMM с отдельными состояниями для экзонов и интронов с наблюдениями KMER?
Работа лаборатории Бира показала, что 5-меры очень хорошо отличают энхансеры от фона, используя модель SVM для классификации. В вашем контексте кажется довольно разумным использовать 6-меры для поиска генов с учетом этого открытия.
Для получения более подробной информации, пожалуйста, ознакомьтесь с «Анализом биологических последовательностей» Шона Эдди и работой доктора Майкла Брента из Вашингтонского университета в Сент-Луисе (его лаборатория провела много исследований HMM для поиска генов).
Было бы полезно иметь одну или несколько бумажных ссылок на ваш вопрос.
йайорк
УПП
Эли Корвиго