Я использовал BWA для сопоставления чтения NGS с геномом hg38, и у меня есть файл BAM. Я не занимаюсь сборкой генома, и в моем эталонном файле генома есть хромосомы человека. Таким образом, у меня не должно быть «контигов». Но...
https://broadinstitute.github.io/picard/command-line-overview.html#ReorderSam
и цитата:
ReorderSam переупорядочивает операции чтения в файле SAM/BAM, чтобы они соответствовали порядку контигов в предоставленном справочном файле, что определяется точным совпадением имен контигов.
В: Что это contig ordering
значит для моего эксперимента по секвенированию всего генома? В частности, что означает сопоставление контига с эталонным файлом?
Я не знаком с picard и их функцией reorderSam, но, насколько я знаю/понимаю из их документации, они имеют в виду следующее:
упорядочение контигов при использовании эталонной последовательности. Так:
Рисунок 5: Анатомия сборки всего генома. При сборке всего генома фрагменты BAC (сегменты красной линии) и чтения от пяти индивидуумов (сегменты черной линии) объединяются для получения контига и консенсусной последовательности (зеленая линия). Контиги соединяются в каркасы, показанные красным, путем спаривания концевых последовательностей, которые также называются сопряжениями. Если между последовательными контигами есть разрыв, он имеет известный размер. Затем каркасы сопоставляются с геномом (серая линия) с использованием информации о сайте, помеченном последовательностью (STS), представленном синими звездочками. © 2001 Американская ассоциация развития науки Venter, C. et al. Последовательность генома человека. Наука 291, 1304–1351 (2001). Все права защищены. ( источник )
ReorderSAM (Picard) Итак, в Picard у вас есть INPUT (File)
файл REFERENCE (File)
. Это также можно увидеть в их коде:
// write the reads in contig order
109
for (final SAMSequenceRecord contig : refDict.getSequences() ) {
110
final SAMRecordIterator it = in.query(contig.getSequenceName(), 0, 0, false);
111
writeReads(out, it, newOrder, contig.getSequenceName());
112
}
( исходник кода )
ReorderSam переупорядочивает операции чтения в файле SAM/BAM в соответствии с порядком последовательностей в предоставленном справочном файле.
Еще немного предыстории
Существует два основных подхода к получению последовательности генома:
для этого есть два «основных» подхода:
g. Технологии секвенирования второго поколения производят миллионы коротких (несколько сотен п.н.) цепочек нуклеотидов (прочтений), что идеально подходит для повторного секвенирования, когда прочтения сопоставляются с эталонным геномом ( сборка на основе эталонов ). Сборка генома de novo на основе секвенирования второго поколения затруднена из-за трудностей с GC- или AT-богатыми и гомонуклеотидными участками ДНК, которые недостаточно представлены в результатах секвенирования ( источник )
Их характеристики:
de novo
- отсутствие смещения в сторону эталонного генома
- нет шаблона для адаптации
- сборка обычно более фрагментирована
- обычно он лучше работает для крупномасштабных/средних разностей масштабов ( источник )
сопоставление ссылок
- меньше контигов
- в большинстве методов чтения, которые не отображаются, не используются в окончательной последовательности (это также относится к reorderSAM:
Reads mapped to contigs absent in the new reference are dropped
- ты посмотри что похоже на твой эталонный геном
- SNP и очень маленькие вариации легче позиционировать и сравнивать между группами ( источник )
Я настоятельно рекомендую посмотреть эту короткую анимацию , чтобы различать эти два метода и понять, что такое эталонное картирование генома.