Почему высокое содержание A+T создало проблемы для проекта генома Plasmodium falciparum?

В основной статье для проекта генома Plasmodium palciparum (Gardner et al., 2002) неоднократно упоминалось, что необычно высокое содержание А+Т (~80%) в геноме вызывает проблемы. Например, они подразумевают, что это помешало им использовать подход «клон за клоном»:

Кроме того, в Escherichia coli никогда не создавались высококачественные большие библиотеки вставок богатой (A + T) ДНК P. falciparum, что исключало стратегию секвенирования клон за клоном.

И что это затруднило аннотацию генов:

Происхождение многих генов-кандидатов, происходящих из органелл, не может быть определено окончательно, отчасти из-за проблем, присущих анализу генов с очень высоким содержанием (A + T).

Вопрос:
Каково биологическое значение высокого содержания А+Т и почему это может вызвать проблемы при секвенировании генома?

Ссылка:
Гарднер, М.Дж., Холл, Н., Фунг, Э., Уайт, О., Берриман, М., Хайман, Р.В., Карлтон, Дж.М., Пейн, А., Нельсон, К.Е., Боуман, С., Полсен, И.Т., Джеймс, К., Эйзен, Дж.А., Резерфорд, К., и др. (2002)Последовательность генома малярийного паразита человека Plasmodium falciparum. Природа. 419 (6906), 498–511.

Я не эксперт в области молекулярной биологии, поэтому я оставлю это как комментарий. Я думаю, что проблема та же, что и для областей, богатых G/C: если у вас в основном/только есть А и Т, у вас гораздо меньше возможных комбинаций нуклеотидов, и у вас будет гораздо больше перекрывающихся последовательностей в геноме, что затруднит секвенирование, потому что это будет сложно перекрыть клоны.
Хороший вопрос, Нико, поэтому, уменьшая сложность, вы увеличиваете вероятность получения неуникальных концов.

Ответы (5)

Технологии секвенирования, разработанные за последние 20 лет, имеют диапазон оптимального использования при средней скорости A+T/G+C. Области как с высоким содержанием AT, так и с высоким содержанием GC сложны для обработки с помощью различных технологий секвенирования. Каждая технология имеет разные диапазоны использования, но, например, технология Illumina предпочитает последовательности в среднем диапазоне. Если вы попытаетесь секвенировать геном, богатый AT, с помощью стандартного протокола Illumina, вы секвенируете неполный геном, фрагменты которого не являются идеальным отражением исходного полного генома. Другие технологии заявляют, что они полностью не зависят от содержания нуклеотидов. Pacific Biosciences — одна из них, и люди, похоже, соглашаются с этим утверждением после анализа данных, производимых их машинами.Oxford Nanopore Technologies утверждает, что у них почти нет предубеждений, но на сегодняшний день (13.06.2012) нет подтверждения этому внешними анализами.

Помимо проблем с секвенированием, программное обеспечение, используемое для сборки и аннотирования последовательностей, также может быть подвержено ошибкам в областях, богатых AT и GC. Но многие из этих проблем связаны с неполнотой последовательности.

Я не могу комментировать, как богатство А+Т усложняет сам процесс секвенирования, но могу прокомментировать сложности, возникающие при аннотировании последовательности. Генные предикторы Ab initio часто основаны на скрытых марковских моделях, которые очень чувствительны к составу оснований в геноме (динуклеотиды, тринуклеотиды и т. д.). Эти искатели генов обычно работают очень плохо, если они работают с геномом, базовый состав которого сильно отличается от того, на котором он был обучен. Это может объяснить некоторые трудности, с которыми они сталкиваются при анализе генов в геноме.

Часто секвенирование включает этап амплификации геномного материала. Стандартный способ выполнить это - ПЦР, но ПЦР необъективна и плохо амплифицирует очень AT-богатые области. При нескольких раундах ПЦР даже участки с низким содержанием, которые не так богаты АТ, могут стать доминирующими в образце и скрыть последовательности, богатые АТ.

Это проблема не только для секвенирования de novo, но и для многих методов, основанных на секвенировании (RNA-seq, ChIP-seq, your-favorite-seq...). Для плазмодия использовались альтернативные методы, но они не являются стандартными (пока?).

См., например, статью H2A.Z, разделяющую межгенные области эпигенома Plasmodium falciparum, которые динамически маркируются H3K9ac и H3K4me3, на http://www.plospathogens.org/article/info:doi/10.1371/journal.ppat.1001223 .

В прошлом, перед массовым параллельным секвенированием, они создали библиотеку клонированных последовательностей и преобразовали их в E. coli . Последовательности с высоким уровнем AT трудно поддерживать в E. coli (возможно, из-за сходства с промоторами?).

Многое уже было сказано в предыдущих ответах, поэтому я просто кратко добавлю две потенциальные проблемы с сильным уклоном AT/CG:

1) Возможность проскальзывания полимеразы из-за гомополимеров: это вносит ошибки в целом, потому что у вас могут быть нежелательные вставки в считываниях, а также включение чисто неправильных оснований. Это проблема, которая может возникнуть даже с PCR (хотя сейчас есть много вариантов, если вы хотите потратить). Таким образом, в целом более высокий уровень ошибок и более высокий уровень ошибок чтения.

2) Сложность машины с разделением сигналов отдельных нуклеотидов для SANGER (все размывается) или ошибки калибровки при секвенировании следующего поколения. Таким образом, выше ошибка чтения (плохое качество).

3) Предполагая, что теперь все в порядке, регионы еще более низкой сложности могут быть ОЧЕНЬ сложно картировать, не говоря уже о сборке полного генома с нуля.

Надеюсь это поможет!