Почему ученые считали, что у людей 100 000 генов (до проекта «Геном человека»)?

Одним из основных результатов проекта «Геном человека» (HGP) стало то, что у людей гораздо меньше отдельных генов, чем считалось ранее. Из статьи 2004 года о HGP :

Фрэнсис С. Коллинз, директор Национального исследовательского института генома человека (NHGRI), сказал: «Всего десять лет назад большинство ученых считали, что у людей около 100 000 генов. Когда мы проанализировали рабочий проект последовательности генома человека три года назад, мы по оценкам, было от 30 000 до 35 000 генов, что многих удивило. Этот новый анализ еще больше сокращает это число [до 20 000–25 000] и дает нам самую четкую картину нашего генома».

На чем основывалась старая оценка в 100 000? Я предполагаю, что в 1994 году никто не секвенировал весь протеом...

Как указывает Remi.b, оценка 100 000 генов может быть основана на гипотезе «один ген — один фермент » . Если это правда, то думали ли люди до проекта генома человека, что существует 100 000 различных ферментных активностей? Если да, то какие эксперименты/данные использовались для установления этого числа?

Значение и количество некодирующей ДНК было недооценено.

Ответы (3)

Геном человека составляет 3,2 Гб (гига = миллиарды пар оснований). Если предположить, что существует 100 тыс. генов, это дает около 32 тыс. п.н. (кило = тысячи пар оснований) на ген.

До проекта генома человека, скажем, до 1990 года, люди изолировали множество генов из тканей человеческого происхождения. Вы можете использовать Google Scholar, чтобы найти соответствующие документы. Из быстрого поиска видно, что диапазон довольно большой:

  • «186 000 пар оснований (п.н.) гена человеческого фактора VIII»
  • «Ген TF человека занимает 12,4 т.п.н.»

Итак, вы видите, как можно предположить, что «средний» размер гена составляет около 30 кб, если вы еще не нашли слишком много генов. Тогда как после секвенирования генома мы знаем, что гены имеют длину 100-10000 п.н. Я думаю, проблема заключалась в том, что еще не было достаточно статистики, чтобы правильно судить о «среднем размере гена». И как оказалось, дистрибутив очень крутой . Вам нужно выделить много генов, чтобы реконструировать это распределение.

К 1990 году феномен альтернативного сплайсинга был уже известен . Что, возможно, было не совсем очевидным, так это количество генов, их реальный размер и количество перекрывающихся генов.

Я думаю, это было скорее предположение, что ДНК кодирует больше, чем на самом деле, но это еще одна возможность.
Из Pertea et Salzberg, Genome Biol, 2010: оценка 100 000 генов появилась в совместном отчете Национальных институтов здравоохранения (NIH) / Министерства энергетики (DOE) 1990 года о проекте «Геном человека»; это, по-видимому, было основано на очень грубом (и неверном) расчете, согласно которому типичные человеческие гены имеют длину 30 000 оснований и что гены покрывают весь геном из 3 гигабайт.
@tsttst спасибо! я думаю, что также интересно, что сегодня мы можем легко заглянуть в литературу прошлого (спасибо, гугл ученый :)

На самом деле нет необходимости строить догадки об ответе на этот вопрос, поскольку ученые опубликовали свои оценки и методологию, как им и положено. Следующая статья является хорошим обзором:

Филдс С., Адамс М.Д., Уайт О., Вентер Дж.К. 1994. Сколько генов в геноме человека? Генетика природы 7:345-346.

Ниже приведены некоторые усеченные выдержки из статьи, но, если возможно, я рекомендую прочитать ее целиком и ссылки в ней.

В пилотных проектах по секвенированию генома... мы обнаружили... в среднем около одного гена в 23,4 т.п.н.... Экстраполируя на весь геном, мы предсказываем около 129 000 генов; однако области, которые мы секвенировали, были выбраны из-за высокого содержания GC и, следовательно, богатства генов. В лучшем случае половина генома в полосах, богатых GC..., вероятно, будет иметь высокую плотность генов; если остальные имеют половину наблюдаемой нами плотности, геном человека может содержать 97 000 генов. Но бедная генами фракция генома, вероятно, имеет гораздо меньшую, чем половина плотности богатой генами фракции... Если мы предположим, что геном включает богатую генами половину с [23,4 т.п.н. на ген] и бедную генами часть вдвое с одной десятой этой плотности мы получаем оценку около 71 000 генов...

Выполнение оценок на основе среднего размера гена обсуждалось в другом ответе . Различные оценки являются результатом различных сделанных предположений: в то время было много неизвестных. О корреляции между GC-содержанием и плотностью генов вы можете прочитать в этом ответе .

Однако легко получить оценки, дающие гораздо меньшее содержание генов... Вагнер и его коллеги отмечают, что только около 12% типичного генома млекопитающих... транскрибируется. Используя средний размер гена в 18 т.п.н., полученный из списка охарактеризованных генов... они оценивают в общей сложности 20 000 генов. Предполагая, что 2500 генов «домашнего хозяйства» (по оценкам Escherichia coli ) составляют 18% от общего числа генов, те же авторы получили еще меньшую цифру — около 14 000 генов человека.

У меня нет доступа к этому справочнику, поэтому слишком сложно углубиться в их методологию, но количество экспрессируемых генов действительно зависит от типа клетки. Например, мозговые клетки тимуса экспрессируют 85% кодирующего генома . RNAseq также предположил, что транскрибируется более 90% генома , хотя это спорно. Тем не менее, их первая оценка была довольно точной.

Измерение кинетики реассоциации РНК позволяет предположить, что примерно 10000 различных генов экспрессируются в типичной клетке млекопитающего, из которых Lewin оценивает общее количество генов от 20000 до 40000 .

Это анализ C0t с РНК вместо ДНК (называемый R0t). Подробнее об этом можно прочитать здесь . Эта оценка также оказалась достаточно точной.

Используя рестрикционный анализ с чувствительным к метилированию ферментом HpaII, Антеверра и Берд подсчитали, что геном человека содержит 45 000 CpG-островков. Они также сообщают, что около 56% секвенированных генов содержат островки CpG, и, следовательно, общее количество генов оценивается примерно в 80 000 ... Это число, однако, может быть завышенным, поскольку даже «полные» генные последовательности редко включают обширные 5' или 3'-фланкирующей последовательности и, следовательно, могут не иметь ассоциированных CpG-островков.

Теперь мы знаем, что в геноме около 30 000 CpG-островков, из которых около 9000 являются внутригенными , и что 72% генов имеют CpG-островки . Это пересмотрит их оценку до 30 000 генов.

Мы использовали набор из 3483 неповторяющихся кодирующих последовательностей в качестве эффективного генома, с которым можно сравнить набор человеческих EST... Если [этот] набор полных кДНК... ​​репрезентативен для генов человека в целом, доля известных кДНК совпадающие с случайно выбранными EST, должны равняться доле новых последовательностей, совпадающих с случайно выбранными EST. Наш проект секвенирования EST человека на данный момент идентифицировал EST, соответствующие 1877 из 3483 уникальных кодирующих областей (54%). Таким образом, мы можем оценить, что секвенированные нами новые EST представляют около 54% ​​ранее неизвестных генов человека... Чтобы оценить, сколько генов идентифицируют эти новые EST, мы... [кластеризировали] EST. Этот шаг сократил 65 297 EST до 40 077 кластеров... что указывает на то, что новый набор EST был на 40 % избыточен. Затем мы можем рассчитать ожидаемое количество генов человека как: 40,77 700 генов. Этот расчет является завышенным, поскольку процедура кластеризации не может идентифицировать EST из одного и того же транскрипта, если только они не перекрываются. Если истинная средняя избыточность составляет 50%, мы предсказываем около 64 000 генов; если истинная средняя избыточность составляет 60%, мы предсказываем 52 000 генов.

Хотя они учитывали альтернативный сплайсинг, были сделаны предположения о том, насколько репрезентативным был их набор кодирующих последовательностей. Похоже, что одной из проблем того времени было то, что многие завышенные оценки, сделанные с использованием разных методов, более или менее согласовывались друг с другом. К сожалению, многие предположения не подтвердились.

Я мало что знаю об эволюции взглядов на эту тему, но я полагаю, что оценка в 100 000 генов, вероятно, вызвана идеями одного гена — одного фермента/белка .

Гипотеза «один ген — один фермент» — это идея о том, что гены действуют посредством производства ферментов, причем каждый ген отвечает за производство одного фермента, который, в свою очередь, влияет на один этап метаболического пути.

Идея о том, что гены влияют на функции клеток через белок, который они кодируют, не так уж и устарела. Однако идея о том, что ген кодирует единственный уникальный белок, немного устарела.

В действительности один ген может кодировать несколько различных белков с помощью механизма, называемого альтернативным сплайсингом .

Альтернативный сплайсинг или дифференциальный сплайсинг — это регулируемый процесс во время экспрессии генов, который приводит к тому, что один ген кодирует несколько белков. В этом процессе определенные экзоны гена могут быть включены или исключены из конечной обработанной матричной РНК (мРНК), полученной из этого гена. Следовательно, белки, транслируемые с альтернативно сплайсированных мРНК, будут содержать различия в своей аминокислотной последовательности и, часто, в своих биологических функциях [..]. Примечательно, что альтернативный сплайсинг позволяет геному человека управлять синтезом гораздо большего количества белков, чем можно было бы ожидать от его 20 000 генов, кодирующих белок.

Таким образом, первоначальная оценка числа генов, вероятно, была совмещена с наблюдаемым числом белков, если предположить, что между генами и белками существует взаимно-однозначная функция (как в гипотезе «один ген — один белок»).

Имеет смысл. Что я хочу знать, так это то, откуда взялось это конкретное число. С количественной точки зрения, какие эксперименты или рассуждения приводят к 100 000? Это (в основном) в пределах порядка величины правильного ответа, поэтому я предполагаю (возможно, неправильно), что оценка изначально была основана на каких-то надежных цифрах откуда-то. Например, были ли основания полагать, что существует 100 000 различных видов ферментативной активности?
Первоначальная оценка, вероятно, была основана на количестве белков. Я уточню это в своем ответе
Спасибо за обновления. Тем не менее, есть еще недостающая часть. Как они установили 100 000 как вероятное число различных белков? Существовал ли эксперимент, существовавший в доомиксную эпоху, который мог разрешить присутствие тысяч (или десятков тысяч) белков в одном образце? Или это было просто обоснованное предположение, основанное на десятилетиях различных наблюдений?
Я не знаю... :DI предположил бы, что тот, кто найдет идентифицированную последовательность белка, загрузит ее в общую базу данных, и сравнение последовательностей белков (какой-то родовой эквивалент BLAST) позволит оценить количество белков, обнаруженных у людей.