В основной статье для проекта генома Plasmodium palciparum (Gardner et al., 2002) неоднократно упоминалось, что необычно высокое содержание А+Т (~80%) в геноме вызывает проблемы. Например, они подразумевают, что это помешало им использовать подход «клон за клоном»:
Кроме того, в Escherichia coli никогда не создавались высококачественные большие библиотеки вставок богатой (A + T) ДНК P. falciparum, что исключало стратегию секвенирования клон за клоном.
И что это затруднило аннотацию генов:
Происхождение многих генов-кандидатов, происходящих из органелл, не может быть определено окончательно, отчасти из-за проблем, присущих анализу генов с очень высоким содержанием (A + T).
Вопрос:
Каково биологическое значение высокого содержания А+Т и почему это может вызвать проблемы при секвенировании генома?
Технологии секвенирования, разработанные за последние 20 лет, имеют диапазон оптимального использования при средней скорости A+T/G+C. Области как с высоким содержанием AT, так и с высоким содержанием GC сложны для обработки с помощью различных технологий секвенирования. Каждая технология имеет разные диапазоны использования, но, например, технология Illumina предпочитает последовательности в среднем диапазоне. Если вы попытаетесь секвенировать геном, богатый AT, с помощью стандартного протокола Illumina, вы секвенируете неполный геном, фрагменты которого не являются идеальным отражением исходного полного генома. Другие технологии заявляют, что они полностью не зависят от содержания нуклеотидов. Pacific Biosciences — одна из них, и люди, похоже, соглашаются с этим утверждением после анализа данных, производимых их машинами.Oxford Nanopore Technologies утверждает, что у них почти нет предубеждений, но на сегодняшний день (13.06.2012) нет подтверждения этому внешними анализами.
Помимо проблем с секвенированием, программное обеспечение, используемое для сборки и аннотирования последовательностей, также может быть подвержено ошибкам в областях, богатых AT и GC. Но многие из этих проблем связаны с неполнотой последовательности.
Я не могу комментировать, как богатство А+Т усложняет сам процесс секвенирования, но могу прокомментировать сложности, возникающие при аннотировании последовательности. Генные предикторы Ab initio часто основаны на скрытых марковских моделях, которые очень чувствительны к составу оснований в геноме (динуклеотиды, тринуклеотиды и т. д.). Эти искатели генов обычно работают очень плохо, если они работают с геномом, базовый состав которого сильно отличается от того, на котором он был обучен. Это может объяснить некоторые трудности, с которыми они сталкиваются при анализе генов в геноме.
Часто секвенирование включает этап амплификации геномного материала. Стандартный способ выполнить это - ПЦР, но ПЦР необъективна и плохо амплифицирует очень AT-богатые области. При нескольких раундах ПЦР даже участки с низким содержанием, которые не так богаты АТ, могут стать доминирующими в образце и скрыть последовательности, богатые АТ.
Это проблема не только для секвенирования de novo, но и для многих методов, основанных на секвенировании (RNA-seq, ChIP-seq, your-favorite-seq...). Для плазмодия использовались альтернативные методы, но они не являются стандартными (пока?).
См., например, статью H2A.Z, разделяющую межгенные области эпигенома Plasmodium falciparum, которые динамически маркируются H3K9ac и H3K4me3, на http://www.plospathogens.org/article/info:doi/10.1371/journal.ppat.1001223 .
В прошлом, перед массовым параллельным секвенированием, они создали библиотеку клонированных последовательностей и преобразовали их в E. coli . Последовательности с высоким уровнем AT трудно поддерживать в E. coli (возможно, из-за сходства с промоторами?).
Многое уже было сказано в предыдущих ответах, поэтому я просто кратко добавлю две потенциальные проблемы с сильным уклоном AT/CG:
1) Возможность проскальзывания полимеразы из-за гомополимеров: это вносит ошибки в целом, потому что у вас могут быть нежелательные вставки в считываниях, а также включение чисто неправильных оснований. Это проблема, которая может возникнуть даже с PCR (хотя сейчас есть много вариантов, если вы хотите потратить). Таким образом, в целом более высокий уровень ошибок и более высокий уровень ошибок чтения.
2) Сложность машины с разделением сигналов отдельных нуклеотидов для SANGER (все размывается) или ошибки калибровки при секвенировании следующего поколения. Таким образом, выше ошибка чтения (плохое качество).
3) Предполагая, что теперь все в порядке, регионы еще более низкой сложности могут быть ОЧЕНЬ сложно картировать, не говоря уже о сборке полного генома с нуля.
Надеюсь это поможет!
Нико
Рик Смит-Унна