Почему высокое содержание A+T создало проблемы для проекта генома Plasmodium falciparum?

Question

Почему высокое содержание A+T создало проблемы для проекта генома Plasmodium falciparum?

ДНК
Биология
геномика
биоинформатика
секвенирование ДНК

Рик Смит-Унна

В основной статье для проекта генома Plasmodium palciparum (Gardner et al., 2002) неоднократно упоминалось, что необычно высокое содержание А+Т (~80%) в геноме вызывает проблемы. Например, они подразумевают, что это помешало им использовать подход «клон за клоном»:

Кроме того, в Escherichia coli никогда не создавались высококачественные большие библиотеки вставок богатой (A + T) ДНК P. falciparum, что исключало стратегию секвенирования клон за клоном.

И что это затруднило аннотацию генов:

Происхождение многих генов-кандидатов, происходящих из органелл, не может быть определено окончательно, отчасти из-за проблем, присущих анализу генов с очень высоким содержанием (A + T).

Вопрос:
Каково биологическое значение высокого содержания А+Т и почему это может вызвать проблемы при секвенировании генома?

Ссылка:
Гарднер, М.Дж., Холл, Н., Фунг, Э., Уайт, О., Берриман, М., Хайман, Р.В., Карлтон, Дж.М., Пейн, А., Нельсон, К.Е., Боуман, С., Полсен, И.Т., Джеймс, К., Эйзен, Дж.А., Резерфорд, К., и др. (2002)Последовательность генома малярийного паразита человека Plasmodium falciparum. Природа. 419 (6906), 498–511.

Нико

Я не эксперт в области молекулярной биологии, поэтому я оставлю это как комментарий. Я думаю, что проблема та же, что и для областей, богатых G/C: если у вас в основном/только есть А и Т, у вас гораздо меньше возможных комбинаций нуклеотидов, и у вас будет гораздо больше перекрывающихся последовательностей в геноме, что затруднит секвенирование, потому что это будет сложно перекрыть клоны.

Рик Смит-Унна

Хороший вопрос, Нико, поэтому, уменьшая сложность, вы увеличиваете вероятность получения неуникальных концов.

Ответы (5)

Почему высокое содержание A+T создало проблемы для проекта генома Plasmodium falciparum?

Я не эксперт в области молекулярной биологии, поэтому я оставлю это как комментарий. Я думаю, что проблема та же, что и для областей, богатых G/C: если у вас в основном/только есть А и Т, у вас гораздо меньше возможных комбинаций нуклеотидов, и у вас будет гораздо больше перекрывающихся последовательностей в геноме, что затруднит секвенирование, потому что это будет сложно перекрыть клоны.
Хороший вопрос, Нико, поэтому, уменьшая сложность, вы увеличиваете вероятность получения неуникальных концов.

719016 · Answer 1

Технологии секвенирования, разработанные за последние 20 лет, имеют диапазон оптимального использования при средней скорости A+T/G+C. Области как с высоким содержанием AT, так и с высоким содержанием GC сложны для обработки с помощью различных технологий секвенирования. Каждая технология имеет разные диапазоны использования, но, например, технология Illumina предпочитает последовательности в среднем диапазоне. Если вы попытаетесь секвенировать геном, богатый AT, с помощью стандартного протокола Illumina, вы секвенируете неполный геном, фрагменты которого не являются идеальным отражением исходного полного генома. Другие технологии заявляют, что они полностью не зависят от содержания нуклеотидов. Pacific Biosciences — одна из них, и люди, похоже, соглашаются с этим утверждением после анализа данных, производимых их машинами.Oxford Nanopore Technologies утверждает, что у них почти нет предубеждений, но на сегодняшний день (13.06.2012) нет подтверждения этому внешними анализами.

Помимо проблем с секвенированием, программное обеспечение, используемое для сборки и аннотирования последовательностей, также может быть подвержено ошибкам в областях, богатых AT и GC. Но многие из этих проблем связаны с неполнотой последовательности.

Дэниел Стэндидж · Answer 2

Я не могу комментировать, как богатство А+Т усложняет сам процесс секвенирования, но могу прокомментировать сложности, возникающие при аннотировании последовательности. Генные предикторы Ab initio часто основаны на скрытых марковских моделях, которые очень чувствительны к составу оснований в геноме (динуклеотиды, тринуклеотиды и т. д.). Эти искатели генов обычно работают очень плохо, если они работают с геномом, базовый состав которого сильно отличается от того, на котором он был обучен. Это может объяснить некоторые трудности, с которыми они сталкиваются при анализе генов в геноме.

Луиспедро · Answer 3

Часто секвенирование включает этап амплификации геномного материала. Стандартный способ выполнить это - ПЦР, но ПЦР необъективна и плохо амплифицирует очень AT-богатые области. При нескольких раундах ПЦР даже участки с низким содержанием, которые не так богаты АТ, могут стать доминирующими в образце и скрыть последовательности, богатые АТ.

Это проблема не только для секвенирования de novo, но и для многих методов, основанных на секвенировании (RNA-seq, ChIP-seq, your-favorite-seq...). Для плазмодия использовались альтернативные методы, но они не являются стандартными (пока?).

См., например, статью H2A.Z, разделяющую межгенные области эпигенома Plasmodium falciparum, которые динамически маркируются H3K9ac и H3K4me3, на http://www.plospathogens.org/article/info:doi/10.1371/journal.ppat.1001223 .

Ройко · Answer 4

В прошлом, перед массовым параллельным секвенированием, они создали библиотеку клонированных последовательностей и преобразовали их в E. coli . Последовательности с высоким уровнем AT трудно поддерживать в E. coli (возможно, из-за сходства с промоторами?).

нбафранк · Answer 5

Многое уже было сказано в предыдущих ответах, поэтому я просто кратко добавлю две потенциальные проблемы с сильным уклоном AT/CG:

1) Возможность проскальзывания полимеразы из-за гомополимеров: это вносит ошибки в целом, потому что у вас могут быть нежелательные вставки в считываниях, а также включение чисто неправильных оснований. Это проблема, которая может возникнуть даже с PCR (хотя сейчас есть много вариантов, если вы хотите потратить). Таким образом, в целом более высокий уровень ошибок и более высокий уровень ошибок чтения.

2) Сложность машины с разделением сигналов отдельных нуклеотидов для SANGER (все размывается) или ошибки калибровки при секвенировании следующего поколения. Таким образом, выше ошибка чтения (плохое качество).

3) Предполагая, что теперь все в порядке, регионы еще более низкой сложности могут быть ОЧЕНЬ сложно картировать, не говоря уже о сборке полного генома с нуля.

Надеюсь это поможет!

Почему высокое содержание A+T создало проблемы для проекта генома Plasmodium falciparum?

Рик Смит-Унна

Нико

Рик Смит-Унна

Ответы (5)

719016

Дэниел Стэндидж

Луиспедро

Ройко

нбафранк

Эталонная последовательность для определения однонуклеотидных полиморфизмов

Параметры анализа вариантов вызова [закрыто]

Можно ли вывести факты о родителях человека, просто изучив его/ее геном?

где найти относительное частотное распределение синонимичных кодонов

Инструмент для выравнивания нуклеотидов со всеми кодами нуклеотидов (например, R, Y, W, S и т. д.)?

В чем разница между последовательностью, чтением и контигом генетического материала?

Можно ли использовать судебно-медицинский анализ ДНК для получения визуального представления о подозреваемом?

Фактическое определение последовательности ДНК методом дробовика?

Насколько легко осуществить сборку последовательности de novo?

Эти данные последовательности (ДНК) имеют очень мало метиониновых стартов. Как это возможно?