Какие статистические процессы и методы используются генетиками/молекулярными биологами, чтобы узнать, где начинается и заканчивается один ген?
Я знаю только один наивный подход к определению границ гена: RACE-PCR. Есть два вида, 3' и 5' RACE, которые позволяют найти соответствующие конечности.
Обоснование следующее:
Вы выполняете обратную транскрипцию интересующего транскрипта, используя определенный праймер. На этом этапе у вас есть определенная одноцепочечная кДНК.
Затем вы добавляете участок идентичных нуклеотидов, называемый гомополимерным хвостом, в 5'-конце кДНК.
Наконец, вы выполняете ПЦР, используя один специфический праймер и один универсальный праймер, который распознает гомополимерный хвост. Вы можете секвенировать свою амплифицированную кДНК и найти ее местонахождение в геноме с разрешением 1 п.н.
Для 3'RACE концепция такая же, но используется поли-А-хвост вместо того, чтобы генерировать его самостоятельно с помощью терминальной трансферазы.
Смотрите этот документ для подробного протокола:
Сэмбрук Дж . , Рассел Д.В. 2006. Быстрая амплификация 5'-концов кДНК (5'-RACE). Протоколы CSH 2006.
Кроме того, соответствующая статья в Википедии дает вам более подробную информацию о том, что происходит на каждом этапе, но будьте осторожны, здесь есть ошибка: сказано, что для 5'RACE терминальная трансфераза добавляет гомополимерный хвост в 3', в то время как она добавляет его. через 5 минут
Существуют различные программы, в которых вы можете ввести свою последовательность (скажем, всю последовательность генома), и она может идентифицировать для вас предполагаемые открытые рамки считывания (ORF), т. е. стартовые кодоны и стоп-кодоны. Затем, используя эти предполагаемые гены, вы можете выполнить выравнивание последовательностей с помощью BLAST, а затем, на основе оценок, вы можете подтвердить, что это действительно ORF. Поскольку это статистический подход, вы можете затем проверить свои результаты в мокрой лаборатории, как предложил Агримальди.
Если ваша цель состоит в том, чтобы определить границы единицы транскрипции (часть ДНК, которая транскрибируется), приведенный выше ответ является точным, хотя многие люди просто используют гомологию для клонированных кДНК, а не реакции RACE. Преимущество этого подхода заключается в одновременном определении альтернативных форм сращивания.
Если ваша цель состоит в том, чтобы определить «концы» гена, это можно сделать только эмпирически и функционально, потому что управляющие элементы (границы, энхансеры и т. д.) невозможно распознать с помощью информатики, и даже если вы найдете энхансеры, не факт, что эти энхансеры используются со специфическими генами. Некоторые гены могут состоять из миллионов пар оснований, поэтому сотни других генов могут быть вкраплены. «Золотым стандартом» для определения границ генов является восстановление фенотипа потери функции мутации с помощью трансгена, содержащего интересующий ген. Если ДНК, трансформированная обратно в организм, может восстановить состояние дикого типа мутации гена, предполагается, что все важные части этого гена находятся внутри трансгена.
Вообще говоря, вы секвенируете геном, а затем ищете подсказки. Обычно гену предшествуют определенные последовательности, которые помогают трансляционному оборудованию понять, что «привет, это то, с чего мы начинаем», а также области, с которыми могут связываться белки, которые используются для усиления или ингибирования трансляции гена.
Компьютеры могут быть запрограммированы на поиск в последовательности и выявление возможных кандидатов для более внимательного изучения.
Пошпау
гчиной
пользователь24
Конрад Рудольф
гчиной
Конрад Рудольф