Нам необходимо учитывать шесть рамок считывания при рассмотрении возможности ДНК кодировать белок (по три рамки для каждой нити). Но в РНК транскрибируется только одна цепь — так называемая кодирующая цепь . Поэтому мне кажется, что на самом деле нужно рассмотреть только три рамки считывания. Почему же тогда люди говорят о шести?
Еще одним моментом, касающимся рамок считывания, является определение Open Reading Frame — ORF . Один текст определяет ORF как:
«ORF — это непрерывный участок кодонов, начинающийся со стартового кодона (обычно AUG) и заканчивающийся стоп-кодоном».
тогда как другой текст определяет его как
«ORF — это непрерывный участок кодонов, не содержащий стоп-кодона (обычно UAA, UAG или UGA)».
Мне кажется, что первое определение правильное. Какое общепринятое определение ORF?
Кодирующая цепь относится к цепи ДНК с тем же порядком оснований, что и транскрипт РНК для конкретного гена. Поскольку один ген всегда полностью присутствует в одной цепи ДНК, в этой цепи действительно возможны 3 рамки считывания, из которых только 1 действительно содержит правильную последовательность кодонов для этого гена.
Однако, когда мы рассматриваем весь геном, вполне возможно, что один ген присутствует на одной цепи, а другой ген присутствует на другой, а это означает, что кодирующая цепь для одного гена является некодирующей цепью для другого. Вот почему существует 6 возможных рамок считывания для генома в целом, поскольку обе нити могут содержать (и содержат) гены.
Что касается ORF, похоже , используются оба определения . В контексте попытки обнаружить гены путем поиска длинных ORF первое определение, вероятно, более полезно, поскольку следование второму определению может привести к большому количеству ложно предсказанных генов (например, длинная последовательность без стоп-кодона, которая не имеет стартовых кодонов). любой из них будет считаться возможным геном, хотя это должно быть невозможно).
На мой взгляд, этот вопрос отражает две вещи:
Что такое кодирующая цепь?
В этом суть первого вопроса, и ответ заключается в том, что термин «кодирующая цепь» ничего не означает (или, по крайней мере, является двусмысленным) вне контекста. Таким образом, я думаю, что постер предполагает контекст генома , и это ошибочность ее аргумента.
Если кто-то говорит (или думает) о «кодирующей цепи» генома ДНК, он предполагает, что, поскольку многие геномы ДНК являются двухцепочечными, если вы разделите две цепи (например, небольшого ДНК-вируса) и выполните концептуальную трансляцию (расшифровал ДНК в аминокислоты, используя генетический код с T, а не с U), одна цепь будет иметь всю информацию для генов, а другая цепь не будет иметь никакой. Другими словами, вы предполагаете, что все гены в геноме имеют одинаковую направленность (направление стрелки на диаграмме генома, например, у E. coli , ниже). Вряд ли это когда-либо так. (Единственные примеры, которые я могу привести, — это геномы одноцепочечных РНК-вирусов.)
Поэтому, если вы используете термин «кодирующая цепь», вы должны указать, что это относится к одному гену . Каждая цепь ДНК в геноме (например , E.coli ) будет содержать участки ДНК, которые являются кодирующими, а некоторые — некодирующими с точки зрения концептуальной трансляции. (Если вы посмотрите на статьи, описывающие раннюю изоляцию генов, вы обнаружите, что слова «кодирующая цепь» обычно обозначаются словом «гена».
Но кДНК имеет только одну кодирующую нить…
Исторически одной из проблем было секвенирование кДНК эукариот, ДНК-копий мРНК. Они должны быть моноцистронными, т.е. кодировать один белок. Так что здесь одна цепь будет кодирующей, а другая некодирующей. Можно ли было в этом случае сократить до трех число анализируемых кадров считывания? Нет! Тот факт, что кодируется только одна цепь, совершенно не помог, поскольку не было никакого способа узнать, какая именно цепь находится в секвенируемой кДНК. Аналогично для фрагмента любого гена. Вы секвенировали фрагмент ДНК, клонировали в какой-то плазмидный вектор, и не было никакого способа сказать, из какой нити произошла последовательность, которую вы считывали. Следовательно, вам нужно перевести его во все шесть рамок считывания, чтобы найти потенциальные аминокислотные последовательности.
Так что же такое открытая рамка чтения?
Открытая рамка для чтения — это термин, который сегодня часто используется иначе, чем в то время, когда он был придуман. В то время, когда он был придуман, можно было секвенировать короткие отрезки кДНК или вирусных или бактериальных генов, и была низкая вероятность секвенирования через С-конец, т.е. стоп-кодон гена. Одна забота заключалась в том, чтобы сосредоточиться на рамках считывания, которые не были прерваны стоп-кодонами. Это оригинальное использование отражено в определении Open Reading Frame в Википедии:
«ORF — это непрерывный участок кодонов, не содержащий стоп-кодона (обычно UAA, UAG или UGA)».
Однако по мере роста знаний и совершенствования технологий основное внимание переключилось на обнаружение генов в геномных или длинных частичных геномных последовательностях организмов. Теперь приходилось работать с длинными последовательностями ДНК, содержащими множество целых генов. Основное внимание было уделено поиску потенциальных генов на основе стартовых и стоп-кодонов (и предельной длины). Это отражено в документации к программе EMBOSS, getorf :
«ORF может быть определена как область определенного минимального размера между двумя кодонами STOP или между кодоном START и STOP».
Обратите внимание, что даже это последнее определение неоднозначно.
Что правильно? Это забота студентов. В реальном мире следует признать, что значение выражений может измениться. Если есть какая-либо двусмысленность — как здесь — нужно определить, как вы используете выражение .
Дэйвид