Как определить наиболее вероятную рамку считывания последовательности ДНК?

Этот вопрос взят из прошлой экзаменационной работы для вводного модуля по биоинформатике. Я ученый-компьютерщик, впервые занимаюсь биологией.

«Короткий бактериальный ген был секвенирован, что дало следующую последовательность ДНК. Запишите 6 возможных рамок считывания для этой последовательности и укажите, какая из них является наиболее вероятной белковой трансляцией этой последовательности. Объясните, почему вы выбрали данную трансляцию, и запишите все переводы в виде однобуквенного кода аминокислоты.

5' - ттатткатccgccagcgccatgcgcgccat - 3'"

Кажется, я понимаю 6 возможных рамок чтения: три с 5'-конца, начиная с tta, tat и att; и три с 3'-конца, начиная с tac, acc и ccg.

Я также мог бы записать переводы для данной рамки считывания с таблицей использования кодонов. Это наиболее вероятная часть рамки считывания, которую я не понимаю. Я подумал, что, возможно, ищу самую длинную открытую рамку для чтения. Я вижу только один стартовый кодон (atg). Как правильно распознать наиболее вероятную рамку считывания?

Я не могу найти эту проблему именно на Biology Stack Exchange. Я нашел:

Помогите прочитать хроматограмму 

Это заставило меня задуматься, не путаюсь ли я между «рамкой считывания» и «открытой рамкой считывания», этот вопрос задает только первый или первый.

Спасибо!

Это ужасно искусственный вопрос, но если предположить, что последовательность представляет собой всю рамку считывания, что вам нужно учитывать помимо стартовых кодонов? Мне нравится ваше предложение об использовании кодонов, но оно не такое сложное.
Спасибо, что так быстро вернулись ко мне. Я все еще не уверен, но у меня было несколько идей.
1) Длина фрейма, достаточная для того, чтобы закодировать что-то полезное, но это все равно будет длина между стартовым и стоп-кодоном. 2) Наличие выраженных тегов последовательности - хотя я не знаю, как сказать вам, если какая-то последовательность содержит EST, и я подозреваю, что они длиннее 30 оснований. 3) Наличие более или менее «вероятных» аминокислот, например, есть ли в последовательности больше наиболее часто встречающихся аминокислот (я думаю, что это серин и лейцин) - но я не думаю, что мы должны знать об этом. .
4) Наличие общих подпоследовательностей, которые могут указывать, скажем, на общие вторичные структуры - опять же, это не то, о чем мы говорили в нашем курсе. 5) Ошибки чтения последовательности в лаборатории. Ищите, где могут быть стартовые и стоп-кодоны, если вы только что изменили одно (или два) основания. Например, в рамке считывания, начинающейся с "att" с 5'-конца, вы могли бы изменить эту первую тройку на "atg", чтобы сделать ее стартовым кодоном, тогда, возможно, последняя "cca" должна была быть стоп-кодоном tta. 6) Промоутерские сайты?
Учитывая, что вы сказали, что это легко, от (2) до (6) все кажется сложнее, чем то, о чем я изначально думал. В более общем смысле, я не понимаю, как это не может иметь стоп-кодон и при этом оставаться геном. Еще раз спасибо.
Хорошо, я дал ответ.
3 рамки считывания с 3'-конца используют «другую» цепь ДНК, то есть ATG и две другие. Эксперты математических и вычислительных наук вносят большой вклад в биоинформатику после небольшого образования. Удачи!

Ответы (1)

Это то, что мы классифицируем как вопрос домашнего задания, но поскольку он удовлетворяет критерию плаката, демонстрирующего попытку ответить на него, я предлагаю следующий вариант ответа.

Я предполагаю, что, как это появилось во вводном модуле по биоинформатике, экзаменационный вопрос — это просто проверка рамок считывания (очевидно) и пунктуации генетического кода . Смысл не совсем ясен, но поскольку одна рамка считывания будет начинаться с инициирующего кодона ATG/AUG (обратное дополнение: cat - 3')† и заканчиваться терминирующим кодоном TAA/UAA (обратное дополнение: 5' - tta ), что предположительно приведет к «наиболее вероятной трансляции белка».

Это рамка считывания F4 в выходных данных EMBOSS Sixpack , ниже, в которой кодоны терминации обозначены звездочкой.

      L  F  I  R  Q  R  H  A  R  H                                   F1
       Y  S  S  A  S  A  M  R  A  X                                  F2
        I  H  P  P  A  P  C  A  P  X                                 F3
    1 ttattcatccgccagcgccatgcgcgccat 30
      ----:----|----:----|----:----|
    1 aataagtaggcggtcgcggtacgcgcggta 30
       X  N  M  R  W  R  W  A  R  W                                  F6
      X  I  *  G  G  A  G  H  A  G                                   F5
        *  E  D  A  L  A  M  R  A  M                                 F4

Концептуальный перевод, читающийся с N на C , — это MARMALADE, который явно задуман как юмористический и предполагает, что это действительно предполагаемый ответ.

Открытые рамки для чтения

Плакат просит разъяснить разницу между рамкой считывания и открытой рамкой считывания . В Википедии есть запись об открытой рамке чтения , но я даю собственное объяснение, чтобы связать его с примером.

Как показано в примере, для концептуальной трансляции фрагмента двухцепочечной ДНК всегда имеется шесть рамок считывания.

Я бы определил открытую рамку считывания как такую, которая не исключается из-за пунктуации генетического кода. Теоретически он может быть переведен с учетом только пунктуации кода, хотя на самом деле он не может быть переведен. Он может начинаться либо с первой AUG после кодона терминации (даже если нельзя быть уверенным, что это действительно используемая AUG), либо с начала секвенированного фрагмента ДНК (с предположением, что AUG может предшествовать 5'-концу). фрагмента). Он может заканчиваться либо кодоном терминации, либо концом секвенируемого фрагмента (при условии, что кодон терминации будет лежать на 5'-конце фрагмента).

По этим критериям рамки считывания F1, F2, F3 и F6, приведенные выше, являются полностью открытыми (хотя внутренний метионин теоретически может быть кодоном инициации), F5 содержит открытую рамку считывания GAHGAGG, а F4, возможно, является полностью открытой рамкой считывания. за исключением терминирующего кодона (в зависимости от вашего семантического определения точного конца открытой рамки считывания).

† Обратное дополнение

Если мы возьмем участок ДНК, записанный в направлении от 5' к 3' — согласно стандартному соглашению — и воспользуемся эквивалентностью пар оснований Уотсона-Крика (A=T, G=C) для создания комплементарной цепи , это будет в направлении от 3′ к 5′. Для нити в вопросе,

5′ - ttattcatccgccagcgccatgcgcgccat - 3′

комплементарная цепь :

3′ - aataagtaggcggtcgcggtacgcgcggta - 5′

Как показано выше.

Для простоты перевода вручную — и для любой компьютерной программы, которая манипулирует последовательностями — нужно обратить это в направлении от 5′ к 3′:

5′ - atggcgcgcatggcgctggcggatgaataa - 3′

Это обратное дополнение . Теперь начало трех обратных рамок считывания легко читается как:

ATG...
 TGG...
  GGC...
Может быть полезно (особенно для тех, у кого нет солидного биологического образования) расширить тему обратного дополнения. Судя по вопросу, кажется, что это, скорее всего, была та часть, которая доставляла проблемы ОП.
@David Ну, я чувствую себя глупо, но также благодарен за отличный ответ. У меня было туннельное зрение, но теперь это очевидно. Ради интереса, что заставило вас изначально охарактеризовать вопрос как "ужасно искусственный"?
@azure_reflection — Большинство белков намного длиннее девяти аминокислот, а программы, предсказывающие гены, обычно имеют отсечку около 30. (Кто-то другой может дать вам точное распределение размеров.) Есть исключения (в биологии всегда есть исключения). У эукариот некоторые небольшие пептиды генерируются путем трансляции небольших orfs, предшествующих преобладающей AUG. Но, по опыту, я сочувствую лекторам, задающим экзаменационные вопросы проблемного типа.
@Astrolamb — готово.