Я хочу вычислить оптимальное выравнивание двух аминокислотных последовательностей в соответствии со следующим определением из патента:
«Процент идентичности между двумя пептидными или нуклеотидными последовательностями является функцией количества аминокислот или нуклеотидных остатков, которые идентичны в двух последовательностях, когда было создано выравнивание этих двух последовательностей. Идентичные остатки определяются как остатки, которые являются одинакова в двух последовательностях в заданном положении выравнивания.Процент идентичности последовательностей, используемый здесь, рассчитывается из оптимального выравнивания путем деления числа идентичных остатков между двумя последовательностями на общее количество остатков в кратчайшей последовательность и умножение на 100. Оптимальное выравнивание - это выравнивание, при котором процент идентичности является максимально возможным.Гэпы могут быть введены в одну или обе последовательности в одном или нескольких положениях выравнивания для получения оптимального выравнивания.Эти пробелы затем учитываются как неидентичные остатки для расчета процента идентичности последовательности».
Реализация Needleman и Wunsch в NCBI ( https://blast.ncbi.nlm.nih.gov/Blast.cgi ) в основном работает, но не совсем. Благодаря @David и @WYSIWIG из связанной темы SE, которая предложила это ( вычисление процентной идентичности между ДНК / аминокислотной последовательностью )
Я хочу знать, есть ли способ исправить несоответствие.
например, мой тестовый пример:
Seq1: ABDE
Seq2: AAAAAAAAAAABCDE
Реализация NCBI дает следующее выравнивание, которое имеет только 3 идентичных остатка:
Но не должно ли оптимальное выравнивание с 4 идентичными остатками быть возможным так:
Seq1: ----------AB-DE
Seq2: AAAAAAAAAAABCDE
Мысли? Есть ли способ настроить реализацию, чтобы получить желаемый результат? В качестве альтернативы любой другой алгоритм, который можно заставить получить это выравнивание? BLAST или вариант?
Needleman-Wunsch выполняет сквозное (глобальное) выравнивание (BLAST использует Smith-Waterman). Needle из набора инструментов EMBOSS выполняет выравнивание Needleman-Wunsch. Он сообщит о выравнивании с наивысшей оценкой. Я не уверен, какое выравнивание он сообщает, когда есть два из них с одинаковыми баллами (я не думаю, что это случайно).
Я только что попробовал ваш случай: заменить B
на, W
поскольку первое не обозначает какую-либо конкретную аминокислоту (это неоднозначно). Это дает:
1 ----------AW-DE 4
|| ||
1 AAAAAAAAAAAWCDE 15
Обратите внимание, что вы можете изменить это поведение, изменив штрафы за открытие и расширение промежутка . Вы также можете изменить штрафы за конечные промежутки (пробелы в начале или конце выравнивания, а не в середине) в Needle.
В этом случае gap-open = 10, gap-extend = 0,5, штраф в конце промежутка = false и матрица = BLOSUM62.
Для выполнения локального выравнивания вы можете использовать Smith-Waterman. Он просто выравнивает область с наивысшей оценкой и не выполняет сквозное выравнивание. В Smith-Wateman и BLAST вы также можете изменить штрафы за открытие и расширение пробела , но эти алгоритмы не начинают и не заканчивают выравнивание пробелом.
Это результат Смита-Уотермана с открытием зазора = 1 и расширением зазора = 0,5 и BLOSUM62 в качестве матрицы подсчета очков.
1 AW-D 3
|| |
11 AWCD 14
Для получения дополнительной информации см. В чем разница между локальным и глобальным выравниванием последовательностей?
Это очень плохой тест.
The problem is that the sequences are too short and involve a long repetition. This means that the default gap penalties and the gap-length penalties are not applicable. They are designed to work with longer sequences, where the penalty of inserting a gap can be offset by an increase in matches. In any case you can get bad alignments at the ends of DNA sequences where the stretch of DNA that is aligned by introducing a gap is ‘off-screen’.
Несмотря на то, что алгоритм может быть безупречным, его реализация в программе выравнивания делает определенные предположения, когда речь идет о значениях очков и штрафов. Вы должны знать, что это такое и когда они применимы. Бывают даже ситуации, когда вам нужно создать свою собственную матрицу, чтобы обеспечить выравнивание между парами, которые, как вы знаете из другой информации, должны выравниваться (активные сайты, регуляторные мотивы). Это вполне справедливо, потому что программа ничего не знает о биологии — знаете вы.
Ваша догадка сделана без знания вероятностей белковых замен.
Оптимальность выравнивания в BLAST — это метрика оценочной функции. Функция подсчета очков зависит от размера слова (длины начального числа, которое инициирует выравнивание), вознаграждений и штрафов за совпадения и несоответствия, стоимости пропусков и матрицы замещения. В целом BLAST использует BLOSUM и PAM — эти матрицы основаны на эволюционных данных. Подробнее о параметрах скоринга вы могли прочитать в BLAST Help .
Вы можете точно настроить эти параметры в разделе «Параметры алгоритма» в самом низу страницы анализа. Зная параметры, вы можете решить, имеет ли смысл ваше выравнивание диких предположений или нет.
любопытный_кот
WYSIWYG
B
и ,Z
но многие алгоритмы, вероятно, этого не делают (хотя я не слишком уверен в этом). В любом случае, ясно ли ваше сомнение?любопытный_кот