Существуют ли ограничения на то, где встречаются границы интрона/экзона по отношению к триплетным кодонам рамки считывания?

Я быстро поискал (здесь и в других местах) и не смог найти ничего по этому вопросу. Если бы все интроны в данном первичном транскрипте были сплайсированы одинаково, то это не имело бы значения. Но многие эукариотические транскрипты имеют альтернативные паттерны сплайсинга, так что одна версия мРНК будет содержать кодирующие области, отсутствующие в других альтернативных формах.

Проблема связана с поддержанием открытой рамки считывания, избеганием смещения рамки и сопутствующих (и непредсказуемых) последствий. Если донорный сайт сплайсинга находится внутри кодона из 3 оснований, может потребоваться, чтобы два (или более) альтернативных акцепторных сайта находились в одном и том же относительном положении в родственном кодоне.

На мой взгляд, самое простое решение этой проблемы состоит в том, чтобы убедиться, что все донорные и акцепторные сайты сплайсинга находятся на границе кодон/слово.

Есть ли доказательства того, что это правда?

Ответы (4)

Как указывали другие, это неправда. Я только что проверил это для людей (аннотации от gencode21 ).

Методология:

  • Получены стартовые точки CDS для всех генов
  • Для каждого экзона каждого гена рассчитывали расстояние между началом CDS и концом экзона.
  • Получили остаток после деления этого значения на 3 (по модулю)

Команды:

Команда-1: 
    awk 'BEGIN{FS="\t|;";OFS="\t"} $3=="CDS"{print $4,$ 9}' gencode.v21.annotation.gtf > cdsstart.txt

Команда-2: 
    awk 'BEGIN{FS="\t|;";OFS="\t"} NR==FNR{a[ $2]=$ 1;следующий} ( $3=="exon" && $ 9 в a){if( $4>a[$ 9]) q[( $5-a[$ 9])%3]++} END{for(i in q) print i,q[i]}' cdsstart.txt gencode.v21.annotation.gtf

Результат:

положение | # случаев
 ____________________________
   -2 | 101191
   -1 | 100954
    0 | 99499

Как видите, экзоны не обязательно заканчиваются в третьей позиции кодона.

Вот данные о размере экзона некоторого случайного гена (человеческий ROR-gamma). Ссылка: http://www.ncbi.nlm.nih.gov/nuccore/NM_005060.3

Он разрезается во всех трех возможных положениях кодона:

экзон 2 30

экзон 3 86

экзон 4 142

экзон 5 513

экзон 6 122

экзон 7 133

экзон 8 108

экзон 9 111

экзон 10 110

Альтернативно сплайсированная изоформа В этого гена получает другой первый экзон. На стыке кодон АСА (изоформа А) заменяется кодоном ТСА (изоформа В).

У меня нет времени сейчас искать примеры, но нет, это неправда. Вы часто получаете подобные случаи (строчные буквы обозначают интрон):

ACCTGTaccttgcaacttgcatAGCTGAC

Который будет соединен с:

ACCTCTGAC

Обратите внимание, что второй кодон состоит из одного нуклеотида из экзона 1 и двух из экзона 2. Я попытаюсь обновить это с примерами из реального мира, но я могу заверить вас, что это возможно, и я видел это довольно часто.

Как показывает Alex M, многие экзоны имеют длину 3n+1 или +2. Кажется, клетки не заботятся о кадре.

В некоторых случаях вставка экзона путем альтернативного сплайсинга сдвигает рамку и дает короткую версию продукта гена или вводит преждевременный стоп-кодон (PTC). Когда PCT распознается в клетках, сплайсированный транскрипт быстро разрушается. Это называется распадом, опосредованным нонсенсом (NMD).

Механизм сплайсинга не заботится о каркасе CDS, и это делает возможным различные генные регуляции.

http://genesdev.cshlp.org/content/24/21/2343.full

В этом обзоре показан пример NMD путем альтернативного сплайсинга. См. описание каспазы-2.