Я быстро поискал (здесь и в других местах) и не смог найти ничего по этому вопросу. Если бы все интроны в данном первичном транскрипте были сплайсированы одинаково, то это не имело бы значения. Но многие эукариотические транскрипты имеют альтернативные паттерны сплайсинга, так что одна версия мРНК будет содержать кодирующие области, отсутствующие в других альтернативных формах.
Проблема связана с поддержанием открытой рамки считывания, избеганием смещения рамки и сопутствующих (и непредсказуемых) последствий. Если донорный сайт сплайсинга находится внутри кодона из 3 оснований, может потребоваться, чтобы два (или более) альтернативных акцепторных сайта находились в одном и том же относительном положении в родственном кодоне.
На мой взгляд, самое простое решение этой проблемы состоит в том, чтобы убедиться, что все донорные и акцепторные сайты сплайсинга находятся на границе кодон/слово.
Есть ли доказательства того, что это правда?
Как указывали другие, это неправда. Я только что проверил это для людей (аннотации от gencode21 ).
Методология:
Команды:
Команда-1: awk 'BEGIN{FS="\t|;";OFS="\t"} $3=="CDS"{print $4,$ 9}' gencode.v21.annotation.gtf > cdsstart.txt Команда-2: awk 'BEGIN{FS="\t|;";OFS="\t"} NR==FNR{a[ $2]=$ 1;следующий} ( $3=="exon" && $ 9 в a){if( $4>a[$ 9]) q[( $5-a[$ 9])%3]++} END{for(i in q) print i,q[i]}' cdsstart.txt gencode.v21.annotation.gtf
Результат:
положение | # случаев ____________________________ -2 | 101191 -1 | 100954 0 | 99499
Как видите, экзоны не обязательно заканчиваются в третьей позиции кодона.
Вот данные о размере экзона некоторого случайного гена (человеческий ROR-gamma). Ссылка: http://www.ncbi.nlm.nih.gov/nuccore/NM_005060.3
Он разрезается во всех трех возможных положениях кодона:
экзон 2 30
экзон 3 86
экзон 4 142
экзон 5 513
экзон 6 122
экзон 7 133
экзон 8 108
экзон 9 111
экзон 10 110
Альтернативно сплайсированная изоформа В этого гена получает другой первый экзон. На стыке кодон АСА (изоформа А) заменяется кодоном ТСА (изоформа В).
У меня нет времени сейчас искать примеры, но нет, это неправда. Вы часто получаете подобные случаи (строчные буквы обозначают интрон):
ACCTGTaccttgcaacttgcatAGCTGAC
Который будет соединен с:
ACCTCTGAC
Обратите внимание, что второй кодон состоит из одного нуклеотида из экзона 1 и двух из экзона 2. Я попытаюсь обновить это с примерами из реального мира, но я могу заверить вас, что это возможно, и я видел это довольно часто.
Как показывает Alex M, многие экзоны имеют длину 3n+1 или +2. Кажется, клетки не заботятся о кадре.
В некоторых случаях вставка экзона путем альтернативного сплайсинга сдвигает рамку и дает короткую версию продукта гена или вводит преждевременный стоп-кодон (PTC). Когда PCT распознается в клетках, сплайсированный транскрипт быстро разрушается. Это называется распадом, опосредованным нонсенсом (NMD).
Механизм сплайсинга не заботится о каркасе CDS, и это делает возможным различные генные регуляции.
http://genesdev.cshlp.org/content/24/21/2343.full
В этом обзоре показан пример NMD путем альтернативного сплайсинга. См. описание каспазы-2.