Оценка выравнивания последовательности

Следующая таблица взята из текста Деонира «Вычислительный анализ генов» на стр. 152. Это упражнение по глобальному выравниванию последовательностей и оценке альтернативных последовательностей. В тексте предложено решение (в скобках). Если оставить в стороне верхнюю левую часть таблицы, кажется, что может быть лучший путь.

Скорее я неправильно понял идею, чем опечатка.

Т г г Т г ( 0 ) 2 4 6 8 10 А ( 2 ) 1 3 5 7 9 Т 4 ( 1 ) 2 4 4 6 С 6 3 ( 2 ) 3 5 5 г 8 5 2 ( 1 ) 3 4 Т 10 7 4 3 ( 0 ) ( 2 )

Просто взглянув в левый верхний угол,

( 0 ) 2 4... 2 ( 1 ) 3... 4 ( 1 ) 2... 6 3 ( 2 ) . . .

что, кажется, дает -7 против -8 для пути книги. Ниже приведено выравнивание книги и выравнивание, соответствующее моей оценке, которая может выявить мою ошибку.

А : А Т С г Т Б : Т г г Т г

А : А Т С г Т Б : Т г г Т г

У меня не было проблем с построением матрицы, просто оценив ее. это небольшой момент, но я не люблю двигаться дальше, не понимая его. Спасибо за любую помощь.

Изменить: оба текущих ответа кажутся ясными, но только для полноты: совпадение = 1; несоответствие = -1; отступ = -2.

Ответы (2)

Если я сам не ошибаюсь, в таблице указаны пути наименьшего сопротивления. Путей через эту таблицу много и все они показаны не только те, которые стоят меньше всего. Нужно понимать, что несовпадение букв стоит -1 (например - АТ), а пустой квадрат стоит -2 (-А или -Т). Таким образом, ваше решение будет стоить = -1-3-4-3-2-4, что тоже составляет -17.

Это полная таблица соответствия. Верхнее значение идет по диагонали, второе значение идет вниз, а третье значение идет вправо.

Полная таблица выравнивания

Не могли бы вы объяснить, как вы получаете это -17? Пробел стоит от -2 до -10 в зависимости от того, какой из них находится в таблице в OP. Оценка несоответствия также меняется. Откуда у вас цифры?
Оценка несоответствия всегда равна -2, только если вы используете более одного пробела, она увеличивается на -2 с каждым пробелом. Вот почему верхняя строка равна -2 (один пробел); -4 (два пробела); -6 (три пробела) и так далее. Я объяснил, как я получил -17 = - 1 - 3 - 4 - 3 - 2 - 4. Вам просто нужно сложить значения каждого места.

Проблема в том, что вы используете Tдважды. Давайте построим выравнивание вручную, у нас есть две последовательности:

>seq1
ATCGT
>seq2
TGGTG

Итак, чтобы построить выравнивание с использованием вашего подхода, мы возьмем первый nt из seq1 Aи выберем nt с наивысшим баллом из seq2, чтобы выровнять его. В вашем примере это будет T(-1), который производит:

A
T

Хорошо, теперь мы переходим к следующему nt из seq1, файлу T. Теперь в вашей таблице самый высокий балл действительно для TT , но мы уже использовали Tfrom seq2 , мы не можем использовать его снова! В своем выравнивании вы использовали файл -. Оценка за T-позицию 2 равна -4. Это означает, что ваше выравнивание:

ATCGT-
T-GGTG

Имеет оценку:

( А Т ) п о с 1 + ( Т ) п о с 2 + ( С г ) п о с 3 + ( г г ) п о с 4 + ( Т Т ) п о с 5 + ( г ) п о с 6

Который:

1 4 2 1 10 знак равно 18

В то время как выравнивание книги:

( А ) п о с 1 + ( Т Т ) п о с 2 + ( С г ) п о с 3 + ( г г ) п о с 4 + ( Т Т ) п о с 5 + ( г ) п о с 6

Который:

2 1 2 1 10 знак равно 16

@daniel, в этом случае это, вероятно, ошибка (мой подход, а не ваш текст). Вырвав из контекста то, что вы показываете, я просто использую оценку для каждой позиции. Итак, поскольку в вашей таблице T-есть оценка -10, я использую ее.
Мы согласны с выравниванием. Почему вторая оценка -4 в моем мировоззрении? Это может прояснить для меня.
Если вы говорите, что -4 в моей оценке потому, что -2 на 2-й позиции, то почему -1 на 4-й позиции не -4? Это может прояснить.
@daniel -4 в вашей оценке связано с тем, что T в seq1, совмещенный с a -в seq2, имеет оценку -4 в таблице. -1 потому что ТТ имеет оценку -1 в таблице. Однако, хотя я действительно работал с такими вещами, я никогда не работал с ними глубоко, и это было несколько лет назад, я вполне могу ошибаться.