Что такое «контиги» в ReorderSAM Пикарда?

Я использовал BWA для сопоставления чтения NGS с геномом hg38, и у меня есть файл BAM. Я не занимаюсь сборкой генома, и в моем эталонном файле генома есть хромосомы человека. Таким образом, у меня не должно быть «контигов». Но...

https://broadinstitute.github.io/picard/command-line-overview.html#ReorderSam

и цитата:

ReorderSam переупорядочивает операции чтения в файле SAM/BAM, чтобы они соответствовали порядку контигов в предоставленном справочном файле, что определяется точным совпадением имен контигов.

В: Что это contig orderingзначит для моего эксперимента по секвенированию всего генома? В частности, что означает сопоставление контига с эталонным файлом?

Ответы (1)

Я не знаком с picard и их функцией reorderSam, но, насколько я знаю/понимаю из их документации, они имеют в виду следующее:
упорядочение контигов при использовании эталонной последовательности. Так:

введите описание изображения здесьРисунок 5: Анатомия сборки всего генома. При сборке всего генома фрагменты BAC (сегменты красной линии) и чтения от пяти индивидуумов (сегменты черной линии) объединяются для получения контига и консенсусной последовательности (зеленая линия). Контиги соединяются в каркасы, показанные красным, путем спаривания концевых последовательностей, которые также называются сопряжениями. Если между последовательными контигами есть разрыв, он имеет известный размер. Затем каркасы сопоставляются с геномом (серая линия) с использованием информации о сайте, помеченном последовательностью (STS), представленном синими звездочками. © 2001 Американская ассоциация развития науки Venter, C. et al. Последовательность генома человека. Наука 291, 1304–1351 (2001). Все права защищены. ( источник )

ReorderSAM (Picard) Итак, в Picard у вас есть INPUT (File)файл REFERENCE (File). Это также можно увидеть в их коде:

// write the reads in contig order
109
            for (final SAMSequenceRecord contig : refDict.getSequences() ) {
110
                final SAMRecordIterator it = in.query(contig.getSequenceName(), 0, 0, false);
111
                writeReads(out, it, newOrder, contig.getSequenceName());
112
            } 

( исходник кода )

ReorderSam переупорядочивает операции чтения в файле SAM/BAM в соответствии с порядком последовательностей в предоставленном справочном файле.

Еще немного предыстории
Существует два основных подхода к получению последовательности генома:

для этого есть два «основных» подхода:
g. Технологии секвенирования второго поколения производят миллионы коротких (несколько сотен п.н.) цепочек нуклеотидов (прочтений), что идеально подходит для повторного секвенирования, когда прочтения сопоставляются с эталонным геномом ( сборка на основе эталонов ). Сборка генома de novo на основе секвенирования второго поколения затруднена из-за трудностей с GC- или AT-богатыми и гомонуклеотидными участками ДНК, которые недостаточно представлены в результатах секвенирования ( источник )

Их характеристики:
de novo

  • отсутствие смещения в сторону эталонного генома
  • нет шаблона для адаптации
  • сборка обычно более фрагментирована
  • обычно он лучше работает для крупномасштабных/средних разностей масштабов ( источник )


сопоставление ссылок

  • меньше контигов
  • в большинстве методов чтения, которые не отображаются, не используются в окончательной последовательности (это также относится к reorderSAM:Reads mapped to contigs absent in the new reference are dropped
  • ты посмотри что похоже на твой эталонный геном
  • SNP и очень маленькие вариации легче позиционировать и сравнивать между группами ( источник )

Я настоятельно рекомендую посмотреть эту короткую анимацию , чтобы различать эти два метода и понять, что такое эталонное картирование генома.