Существует ли общепринятое определение того, сколько оснований нуклеиновых кислот составляют ген?
Если нет, то почему? Я не уверен, что понимаю, как определяются точные размеры генов.
Существует ли общепринятое определение того, сколько азотистых оснований составляют ген?
Если нет, то почему?
Нет такого определения. Ген – это область ДНК, которая транскрибируется. Как правило, ген должен иметь сайт начала транскрипции, определяемый промотором, и сайт остановки транскрипции, отмеченный сигналами терминации (такими как терминаторы и сигнал поли-А и т. д.).
Есть несколько небольших РНК (~ 18 нт), которые продуцируются из TSS обычных генов, но, вероятно, являются продуктами неудачной элонгации. На самом деле они не считаются генами, поскольку они неоднородны по размеру и не отмечены какой-либо границей.
Технически может быть минимальное ограничение длины гена, которое может быть длиной ДНК, необходимой для того, чтобы РНК-полимераза могла сидеть, а также включать сигналы терминации. Как указано в комментариях, самым маленьким геном может быть тРНК. Однако самым маленьким аннотированным геном из аннотаций GENCODE является TRDD1 (длиной всего 7 нуклеотидов!!!). Это не основано на предсказании генов; это вручную аннотируется командой HAVANA .
Какова средняя длина гена?
Я только что сделал грубый расчет из файла аннотации генома человека GENCODE (версия 23).
Средняя длина транскрипта составляет около 1,5 кб
. Средняя длина гена составляет около 29 кб.
Гены будут длиннее (или равны) их соответствующим транскриптам, потому что последние укорачиваются из-за сплайсинга.
Я сделал график гистограммы этих длин для удобства:
Распределение длины стенограммы
Распределение длины генов
Обратите внимание на резкие пики на уровне 100 б.п. Довольно интересно!
Пользователь Remi19099 упомянул, что самый длинный ген у человека — это тайтин. Похоже, что это самый длинный ген у многих других разнообразных животных. См. Какая самая длинная стенограмма известна? Больше подробностей.
Чтобы рассчитать распределение длины генов : я проанализировал файл GTF на наличие «генов» (третье поле, то есть признак) и вычел пятое поле (стоп) из четвертого (начало).
Чтобы рассчитать распределение длины транскрипта : Получите файл fasta транскрипта из аннотированных мест. Вычислил их длины. Нарисовал раздачу.
Как определяется размер гена?
ДНК состоит из 4 нуклеотидов A
, T
и C
. G
Серии таких нуклеотидов составляют любой участок генома, в том числе и гены. Количество нуклеотидов в гене — это то, что мы называем размером гена. Конечно, можно обсудить определение точного начала и конца (и методы их определения) гена, но это обсуждение в другой раз.
Поскольку ДНК является двухцепочечной, вместо того, чтобы говорить о последовательности из 10 нуклеотидов, мы часто говорим о последовательности из 10 пар оснований (bp). Имея дело с более длинной последовательностью, мы можем использовать префикс «кило (к)», чтобы указать одну тысячу пар оснований. Например: 12 кб = 12 000 бп. Для еще больших значений используется префикс «Мега (M)» для обозначения одного миллиона пар оснований. Например: 7 Мбит/с = 7 000 кбит/с = 7 000 000 бит/с.
Средний и медианный размер гена у человека
Существует много различий в размере генов между генами внутри вида, а также между видами. Настолько, что среднее значение не дает много информации. Но вот средний и медианный размер гена у человека:
Крайности в геноме человека
Как сказал @user19099, самый длинный ген в геноме человека — это TTN, кодирующий белок тайтин . TTN имеет длину около 100 кбит/с. тРНК , как правило, представляют собой очень короткие последовательности (76-90 нуклеотидов), но обратите внимание, что эти последовательности никогда не будут транслироваться в белки.
Книжная рекомендация
Книга Шерера «Краткий справочник по геному человека » очень хорошо дает представление о том, как выглядит геном человека.
Интерпретация вопроса
Вы спрашиваете о двух вещах: 1. о количестве оснований нуклеиновых кислот, из которых состоит ген, 2. (подразумевается), как определяется размер генов. Первый вопрос кажется странно наивным, но второй предполагает, что это может быть недоразумение. Поэтому я намерен начать оттуда.
Как определяются границы гена?
Гены определяются с точки зрения их информационного содержания — наиболее очевидно для определения белков, которые могут придавать фенотип, а также для определения структурных и регуляторных молекул РНК. Таким образом, протяженность генов или длина ДНК, которую они занимают , определяется их информационным содержанием.
Содержатся ли гены в «ящиках» ДНК одинакового размера?
Ваше первое предложение предполагает, что вы думаете, что все гены имеют фиксированное количество оснований нуклеиновых кислот. Эта идея кажется странной, поскольку на самом простом уровне (например, у бактерий) их информационное содержание различается по размеру в зависимости от размера их белковых или РНК-продуктов. Однако, возможно, у вас есть идея, что геном разделен на области одинакового размера с дискретным началом и концом, в которые помещается информация (остальное как бы упаковывается). Это не так.
Гены занимают разную длину ДНК
На самом деле длины разных генов различаются внутри вида и между видами. У простых прокариот это происходит главным образом потому, что они кодируют белки (или РНК) разной длины. У эукариот (где гены обычно намного больше) это еще более усложняется из-за различного количества и размера их интронов, которые (обычно) не кодируют белок.
Как на практике определяются конечные точки гена?
Простой ответ на вышеизложенное (соответствующий уровню вашего исходного вопроса) будет заключаться в том, что гены простираются от промоторных областей, где РНК-полимераза связывается для транскрипции, до точки терминации транскрипции. Таким образом, в первом приближении на практике они могут быть определены участками ДНК, которые определяют мРНК (или пре-мРНК) или другие РНК. Современным методом для этого будет RNAseq.
(На практике ситуация сложнее, потому что могут быть области ДНК, которые влияют на экспрессию, но не транскрибируются. Но в данный момент я бы не беспокоился об этом.)
ШаньЧжэнЯн
еще один "хомо сапиен"
тердон
Дэйвид
WYSIWYG
Дэйвид
Реми.б
ШаньЧжэнЯн
AlexDeLarge
AlexDeLarge
еще один "хомо сапиен"