Как определяются границы гена?

Какие статистические процессы и методы используются генетиками/молекулярными биологами, чтобы узнать, где начинается и заканчивается один ген?

К чему относится тег «базовый»?
Я подумал, что вопрос был скорее основополагающим для заполнения группы, поэтому я пометил его как базовый . Если это не протокол, пожалуйста, удалите.
@ghchinoy: я изменил тег, предполагая, что это метатег (хотя это вопрос о парах оснований)
Просто для уточнения: мы говорим здесь о генах, кодирующих белок , верно? Есть еще много других, для которых методы совершенно другие.
@KonradRudolph, не могли бы вы сослаться на другие типы и методы генов? Спасибо.
@ghchinoy Например, я сейчас работаю над генами тРНК, и, поскольку они используют другую полимеразу, их промотор и сайт терминации выглядят заметно иначе. То же самое верно для всех других некодирующих РНК, а также есть такие вещи, как псевдогены и LINE/SINE (они обычно не считаются генами, но из-за их сходства с генами некодирующей РНК они усложняют анализ). Тем не менее, на самом деле существуют биоинформационные методы для поиска этих генов. Насколько мне известно, они в основном используют поиск по мотивам.

Ответы (4)

Я знаю только один наивный подход к определению границ гена: RACE-PCR. Есть два вида, 3' и 5' RACE, которые позволяют найти соответствующие конечности.

Обоснование следующее:

  • Вы выполняете обратную транскрипцию интересующего транскрипта, используя определенный праймер. На этом этапе у вас есть определенная одноцепочечная кДНК.

  • Затем вы добавляете участок идентичных нуклеотидов, называемый гомополимерным хвостом, в 5'-конце кДНК.

  • Наконец, вы выполняете ПЦР, используя один специфический праймер и один универсальный праймер, который распознает гомополимерный хвост. Вы можете секвенировать свою амплифицированную кДНК и найти ее местонахождение в геноме с разрешением 1 п.н.

Для 3'RACE концепция такая же, но используется поли-А-хвост вместо того, чтобы генерировать его самостоятельно с помощью терминальной трансферазы.

Смотрите этот документ для подробного протокола:

Сэмбрук Дж . , Рассел Д.В. 2006. Быстрая амплификация 5'-концов кДНК (5'-RACE). Протоколы CSH 2006.

Кроме того, соответствующая статья в Википедии дает вам более подробную информацию о том, что происходит на каждом этапе, но будьте осторожны, здесь есть ошибка: сказано, что для 5'RACE терминальная трансфераза добавляет гомополимерный хвост в 3', в то время как она добавляет его. через 5 минут

-1: это может быть хорошим подходом, чтобы увидеть границы ORF (честно говоря, вам не всегда нужна RACE, может сработать и простая ПЦР), а не гена. А как насчет промоутера и регуляторных элементов? Кроме того, в чем преимущество по сравнению, скажем, с подходом биоинформатики после секвенирования?
@nico: Итак, с вашим определением ген не имеет границ.
@nico: Хорошо, я понимаю вашу точку зрения, но я не думаю, что ОП имел в виду это определение гена. Кроме того, я полностью согласен с тем, что новые технологии, такие как RNA-seq, дают вам более полный ответ на вопрос о аннотации генома.
мы можем часами обсуждать правильное определение гена, но я не думаю, что можно много обсуждать тот факт, что промотор является частью гена. А путем ретротранскрипции мРНК вы не получите промоутер.

Существуют различные программы, в которых вы можете ввести свою последовательность (скажем, всю последовательность генома), и она может идентифицировать для вас предполагаемые открытые рамки считывания (ORF), т. е. стартовые кодоны и стоп-кодоны. Затем, используя эти предполагаемые гены, вы можете выполнить выравнивание последовательностей с помощью BLAST, а затем, на основе оценок, вы можете подтвердить, что это действительно ORF. Поскольку это статистический подход, вы можете затем проверить свои результаты в мокрой лаборатории, как предложил Агримальди.

Но как эти программы определяют границы генов? Что они ищут, что указывает на генную границу?
Может, стоит еще вопрос начать конкретно о том, какие программные приемы используются? Может быть, с тегом биоинформатики.
@RichardSmith Они в основном ищут стартовые кодоны (ATG, GTG), которые определяют начало открытой рамки считывания (ORF), и стоп-кодоны (TAG, TAA, TGA), которые определяют конец ORF, а также проверяют, количество оснований между старт-кодоном и стоп-кодоном кратно трем.
@ghchinoy Да, это может быть интересно, но я не думаю, что это сложнее, чем я уже объяснил Ричарду. Конечно, вы можете добавить еще несколько «проверок», которые может выполнять программное обеспечение, например длину ORF.

Если ваша цель состоит в том, чтобы определить границы единицы транскрипции (часть ДНК, которая транскрибируется), приведенный выше ответ является точным, хотя многие люди просто используют гомологию для клонированных кДНК, а не реакции RACE. Преимущество этого подхода заключается в одновременном определении альтернативных форм сращивания.

Если ваша цель состоит в том, чтобы определить «концы» гена, это можно сделать только эмпирически и функционально, потому что управляющие элементы (границы, энхансеры и т. д.) невозможно распознать с помощью информатики, и даже если вы найдете энхансеры, не факт, что эти энхансеры используются со специфическими генами. Некоторые гены могут состоять из миллионов пар оснований, поэтому сотни других генов могут быть вкраплены. «Золотым стандартом» для определения границ генов является восстановление фенотипа потери функции мутации с помощью трансгена, содержащего интересующий ген. Если ДНК, трансформированная обратно в организм, может восстановить состояние дикого типа мутации гена, предполагается, что все важные части этого гена находятся внутри трансгена.

Вообще говоря, вы секвенируете геном, а затем ищете подсказки. Обычно гену предшествуют определенные последовательности, которые помогают трансляционному оборудованию понять, что «привет, это то, с чего мы начинаем», а также области, с которыми могут связываться белки, которые используются для усиления или ингибирования трансляции гена.

Компьютеры могут быть запрограммированы на поиск в последовательности и выявление возможных кандидатов для более внимательного изучения.