Как определяется размер гена?

Существует ли общепринятое определение того, сколько оснований нуклеиновых кислот составляют ген?

Если нет, то почему? Я не уверен, что понимаю, как определяются точные размеры генов.

@user19099 user19099 Конечно, есть диапазон. От ХХ Мб до ХХ Мб.
да, диапазон составляет от 76 (тРНК) до 80781 (титин) п.н. у людей.
В каких видах? Используя какое определение гена? Я думаю, что на самом деле вы спрашиваете, что такое определение гена (вы можете быть удивлены, узнав, что это не черно-белая концепция). Если это ваш вопрос, пожалуйста, уточните.
Я изменил название, потому что оно не было оригинальным плакатом, и тот, кто изменил его ранее, сделал это на тот, который не отражает содержание вопроса. Спрашивающий явно не спрашивает, каков средний размер гена — хотя один из ответов хотел бы этого. Скорее он, кажется, хочет знать основу для определения границ гена. (Сначала я думал, что он предполагает, что все гены имеют определенный размер, но это действительно было бы слишком наивно. Это, конечно, просто ограниченное владение английским языком.)
@David Заголовок исходного поста был «Какова средняя длина аллеля». Дело не в том, что отвечающие желают получить этот титул, так что им, вероятно, будет легче ответить. Однако из-за вашего редактирования некоторые ответы теперь кажутся «не ответами». Почему бы не позволить ОП самим прояснить вопрос?
@WYSIWYG Как бы там ни было. Название не отражало вопрос, как и ответы, которые вы упомянули. В частности, они не касаются последнего предложения. Я перепишу свой собственный ответ, чтобы прояснить это. Что касается спрашивающего, дающего разъяснения, я надеюсь, что он это сделает.
Вы задали вопрос, на вопрос был дан ответ, а затем вы изменили вопрос. Пожалуйста, просто отредактируйте, примите текущий ответ и откройте новый пост для другого вопроса.
@terdon Давайте сначала сосредоточимся на людях.
@ user19099: число для гена тайтина не совсем верно. TTN (ген, кодирующий тайтин) сам по себе имеет длину около 300 т.п.н.
На самом деле, TTN даже не самый большой ген. Самый большой, который я нашел, это CNTNAP2 с прибл. 2,3 мб.
@alexdelarge спасибо за эту информацию! На самом деле я не искал самый большой ген, а просто искал размер тайтина :)

Ответы (3)

Существует ли общепринятое определение того, сколько азотистых оснований составляют ген?

Если нет, то почему?

Нет такого определения. Ген – это область ДНК, которая транскрибируется. Как правило, ген должен иметь сайт начала транскрипции, определяемый промотором, и сайт остановки транскрипции, отмеченный сигналами терминации (такими как терминаторы и сигнал поли-А и т. д.).

Есть несколько небольших РНК (~ 18 нт), которые продуцируются из TSS обычных генов, но, вероятно, являются продуктами неудачной элонгации. На самом деле они не считаются генами, поскольку они неоднородны по размеру и не отмечены какой-либо границей.

Технически может быть минимальное ограничение длины гена, которое может быть длиной ДНК, необходимой для того, чтобы РНК-полимераза могла сидеть, а также включать сигналы терминации. Как указано в комментариях, самым маленьким геном может быть тРНК. Однако самым маленьким аннотированным геном из аннотаций GENCODE является TRDD1 (длиной всего 7 нуклеотидов!!!). Это не основано на предсказании генов; это вручную аннотируется командой HAVANA .


Какова средняя длина гена?

Я только что сделал грубый расчет из файла аннотации генома человека GENCODE (версия 23).

Средняя длина транскрипта составляет около 1,5 кб
. Средняя длина гена составляет около 29 кб.

Гены будут длиннее (или равны) их соответствующим транскриптам, потому что последние укорачиваются из-за сплайсинга.

Я сделал график гистограммы этих длин для удобства:

Распределение длины стенограммы

        введите описание изображения здесь


Распределение длины генов

         введите описание изображения здесь

Обратите внимание на резкие пики на уровне 100 б.п. Довольно интересно!


Пользователь Remi19099 упомянул, что самый длинный ген у человека — это тайтин. Похоже, что это самый длинный ген у многих других разнообразных животных. См. Какая самая длинная стенограмма известна? Больше подробностей.


Методология (чтобы можно было определить ограничения)

Чтобы рассчитать распределение длины генов : я проанализировал файл GTF на наличие «генов» (третье поле, то есть признак) и вычел пятое поле (стоп) из четвертого (начало).

Чтобы рассчитать распределение длины транскрипта : Получите файл fasta транскрипта из аннотированных мест. Вычислил их длины. Нарисовал раздачу.

Я не решался сделать это, но было слишком лень! Отличная работа. Обратите внимание, однако, что ваш средний показатель в два раза выше, чем средний показатель Страчана и Рида (1999). Вы знаете, чем вызваны эти разные оценки?
@ Remi.b Ну, одно из очевидных объяснений может заключаться в том, что сейчас у нас больше аннотированных генов по сравнению с 1999 годом.
... и мы непропорционально аннотировали маленькие гены в 1999 году. Это действительно возможно. Было бы интересно открыть пост на эту тему.
@ Remi.b Или, возможно, все гены не были аннотированы. Благодаря более совершенным технологиям секвенирования мы можем лучше картировать гены.
Очень информативно и особенно интересен всплеск на 100бп.
@ Remi.b да, помните, что геном человека не был секвенирован в 99-м, поэтому эти оценки могли основываться только на том, что у них было. Также обратите внимание, что WYSIWIG имеет в виду стенограммы , а у нас было еще меньше информации об альтернативных стенограммах в 1999 году, чем сегодня. Наконец, рассмотрите длинные некодирующие транскрипционные области, которые могут быть включены в набор данных, который использовал WYSIWIG (я не знаю), и которые на самом деле не будут считаться «генами» как таковыми. Ну, смотря как определить... :)
О... хорошо, теперь это имеет больше смысла. Спасибо за внимание к этому вопросу. +1
@WYSIWYG Спасибо за это! Я так счастлив видеть распределение того, что составляет человеческий «ген».
@WYSIWYG это действительно здорово. Можете ли вы показать мне исходный код вашего графика длины гена, чтобы я мог воссоздать этот график в другом модельном организме?
@Tom Я получил вектор длин из файла GTF. Это довольно легко. Просто возьмите разницу старта и стопа. Для гистограммы я использовал MATLAB. Это можно сделать и в R, и в Python.

Как определяется размер гена?

ДНК состоит из 4 нуклеотидов A, Tи C. GСерии таких нуклеотидов составляют любой участок генома, в том числе и гены. Количество нуклеотидов в гене — это то, что мы называем размером гена. Конечно, можно обсудить определение точного начала и конца (и методы их определения) гена, но это обсуждение в другой раз.

Поскольку ДНК является двухцепочечной, вместо того, чтобы говорить о последовательности из 10 нуклеотидов, мы часто говорим о последовательности из 10 пар оснований (bp). Имея дело с более длинной последовательностью, мы можем использовать префикс «кило (к)», чтобы указать одну тысячу пар оснований. Например: 12 кб = 12 000 бп. Для еще больших значений используется префикс «Мега (M)» для обозначения одного миллиона пар оснований. Например: 7 Мбит/с = 7 000 кбит/с = 7 000 000 бит/с.

Средний и медианный размер гена у человека

Существует много различий в размере генов между генами внутри вида, а также между видами. Настолько, что среднее значение не дает много информации. Но вот средний и медианный размер гена у человека:

  • Средний размер гена у человека составляет 10–15 т.п.н. (килопар оснований) ( Strachan and Read 1999 ) .
  • Средний размер гена у человека составляет 24 т.п.н. ( Fuchs et al. 2014 ).

Крайности в геноме человека

Как сказал @user19099, самый длинный ген в геноме человека — это TTN, кодирующий белок тайтин . TTN имеет длину около 100 кбит/с. тРНК , как правило, представляют собой очень короткие последовательности (76-90 нуклеотидов), но обратите внимание, что эти последовательности никогда не будут транслироваться в белки.

Книжная рекомендация

Книга Шерера «Краткий справочник по геному человека » очень хорошо дает представление о том, как выглядит геном человека.

Мы также могли бы обсудить, что такое ген на самом деле и существует ли сущность, подобная гену, как мы его видим. Хороший ответ, однако!
Благодарю вас! Да, средний и медианный размер человеческого гена примерно соответствует тому, что я задавал (во всяком случае, это один из вопросов).

Интерпретация вопроса

Вы спрашиваете о двух вещах: 1. о количестве оснований нуклеиновых кислот, из которых состоит ген, 2. (подразумевается), как определяется размер генов. Первый вопрос кажется странно наивным, но второй предполагает, что это может быть недоразумение. Поэтому я намерен начать оттуда.

Как определяются границы гена?

Гены определяются с точки зрения их информационного содержания — наиболее очевидно для определения белков, которые могут придавать фенотип, а также для определения структурных и регуляторных молекул РНК. Таким образом, протяженность генов или длина ДНК, которую они занимают , определяется их информационным содержанием.

Содержатся ли гены в «ящиках» ДНК одинакового размера?

Ваше первое предложение предполагает, что вы думаете, что все гены имеют фиксированное количество оснований нуклеиновых кислот. Эта идея кажется странной, поскольку на самом простом уровне (например, у бактерий) их информационное содержание различается по размеру в зависимости от размера их белковых или РНК-продуктов. Однако, возможно, у вас есть идея, что геном разделен на области одинакового размера с дискретным началом и концом, в которые помещается информация (остальное как бы упаковывается). Это не так.

Гены занимают разную длину ДНК

На самом деле длины разных генов различаются внутри вида и между видами. У простых прокариот это происходит главным образом потому, что они кодируют белки (или РНК) разной длины. У эукариот (где гены обычно намного больше) это еще более усложняется из-за различного количества и размера их интронов, которые (обычно) не кодируют белок.

Как на практике определяются конечные точки гена?

Простой ответ на вышеизложенное (соответствующий уровню вашего исходного вопроса) будет заключаться в том, что гены простираются от промоторных областей, где РНК-полимераза связывается для транскрипции, до точки терминации транскрипции. Таким образом, в первом приближении на практике они могут быть определены участками ДНК, которые определяют мРНК (или пре-мРНК) или другие РНК. Современным методом для этого будет RNAseq.

(На практике ситуация сложнее, потому что могут быть области ДНК, которые влияют на экспрессию, но не транскрибируются. Но в данный момент я бы не беспокоился об этом.)

@ShanZhengYang — я очень старался понять, о чем вы спрашивали в своем вопросе. Если нет, не могли бы вы пояснить.
«Ваше первое предложение предполагает, что вы думаете, что все гены имеют фиксированное количество оснований нуклеиновых кислот». Извините, это не было моим намерением.
В своем вопросе я задал несколько вопросов, что вызвало некоторую путаницу. Спасибо. "Как на практике определяются конечные точки гена?" был на самом деле один из моих вопросов выше. Мы все еще изучаем, как части генома порождают фенотипы, поэтому мне было непонятно, как мы можем быть настолько уверены в границах «генов», которые приводят к «фенотипическим признакам».
«Могут быть участки ДНК, которые влияют на экспрессию, но не транскрибируются». Это затрагивает суть моего вопроса. Итак... как можно было так четко обозначить эти границы генов? Данные РНК-Seq не такие уж чистые...
@ShanZhengYang — Спасибо за разъяснения. Извиняюсь, если мой ответ был слишком упрощенным. Что касается проблемы «нечетких границ», то я думаю, что люди придерживаются определенного подхода, позволяющего проводить количественные сравнения (между видами, между генами), который является показательным, даже если он не совершенен. Для бактерий может быть легко идентифицировать промоторы и сигналы терминации и использовать их; для генов млекопитающих подход секвенирования РНК с аннотированным геномом может быть наиболее практичным. В разных случаях могут быть сделаны разные предположения.