Что такое «контиги» в ReorderSAM Пикарда?

Question

Что такое «контиги» в ReorderSAM Пикарда?

МаленькиеШахматы

Я использовал BWA для сопоставления чтения NGS с геномом hg38, и у меня есть файл BAM. Я не занимаюсь сборкой генома, и в моем эталонном файле генома есть хромосомы человека. Таким образом, у меня не должно быть «контигов». Но...

https://broadinstitute.github.io/picard/command-line-overview.html#ReorderSam

и цитата:

ReorderSam переупорядочивает операции чтения в файле SAM/BAM, чтобы они соответствовали порядку контигов в предоставленном справочном файле, что определяется точным совпадением имен контигов.

В: Что это contig orderingзначит для моего эксперимента по секвенированию всего генома? В частности, что означает сопоставление контига с эталонным файлом?

Ответы (1)

Что такое «контиги» в ReorderSAM Пикарда?

КингБуми · Answer 1

Я не знаком с picard и их функцией reorderSam, но, насколько я знаю/понимаю из их документации, они имеют в виду следующее:
упорядочение контигов при использовании эталонной последовательности. Так:

Рисунок 5: Анатомия сборки всего генома. При сборке всего генома фрагменты BAC (сегменты красной линии) и чтения от пяти индивидуумов (сегменты черной линии) объединяются для получения контига и консенсусной последовательности (зеленая линия). Контиги соединяются в каркасы, показанные красным, путем спаривания концевых последовательностей, которые также называются сопряжениями. Если между последовательными контигами есть разрыв, он имеет известный размер. Затем каркасы сопоставляются с геномом (серая линия) с использованием информации о сайте, помеченном последовательностью (STS), представленном синими звездочками. © 2001 Американская ассоциация развития науки Venter, C. et al. Последовательность генома человека. Наука 291, 1304–1351 (2001). Все права защищены. ( источник )

ReorderSAM (Picard) Итак, в Picard у вас есть INPUT (File)файл REFERENCE (File). Это также можно увидеть в их коде:

// write the reads in contig order
109
            for (final SAMSequenceRecord contig : refDict.getSequences() ) {
110
                final SAMRecordIterator it = in.query(contig.getSequenceName(), 0, 0, false);
111
                writeReads(out, it, newOrder, contig.getSequenceName());
112
            }

( исходник кода )

ReorderSam переупорядочивает операции чтения в файле SAM/BAM в соответствии с порядком последовательностей в предоставленном справочном файле.

Еще немного предыстории
Существует два основных подхода к получению последовательности генома:

для этого есть два «основных» подхода:
g. Технологии секвенирования второго поколения производят миллионы коротких (несколько сотен п.н.) цепочек нуклеотидов (прочтений), что идеально подходит для повторного секвенирования, когда прочтения сопоставляются с эталонным геномом ( сборка на основе эталонов ). Сборка генома de novo на основе секвенирования второго поколения затруднена из-за трудностей с GC- или AT-богатыми и гомонуклеотидными участками ДНК, которые недостаточно представлены в результатах секвенирования ( источник )

Их характеристики:
de novo

отсутствие смещения в сторону эталонного генома

нет шаблона для адаптации

сборка обычно более фрагментирована

обычно он лучше работает для крупномасштабных/средних разностей масштабов ( источник )

сопоставление ссылок

меньше контигов

в большинстве методов чтения, которые не отображаются, не используются в окончательной последовательности (это также относится к reorderSAM:Reads mapped to contigs absent in the new reference are dropped

ты посмотри что похоже на твой эталонный геном

SNP и очень маленькие вариации легче позиционировать и сравнивать между группами ( источник )

Я настоятельно рекомендую посмотреть эту короткую анимацию , чтобы различать эти два метода и понять, что такое эталонное картирование генома.

Что такое «контиги» в ReorderSAM Пикарда?

МаленькиеШахматы

Ответы (1)

КингБуми

Какую информацию можно извлечь из данных РНК-секвенирования во времени?

Биологическая проверка компьютерно-определяемого межгенного взаимодействия

Попытка понять общую картину, стоящую за секвенированием, выравниванием и поиском ДНК.

Поиск целевой базы данных противораковых препаратов для определения последовательности ДНК опухоли пациента

Простой проект по вычислительной биологии для класса AP Biology. Идеи? [закрыто]

Проверка маркеров с использованием транскриптома и геномных последовательностей, полученных из одной клетки

химерные последовательности [закрыто]

Рекомендуемый алгоритм кластеризации последовательностей для данных транскриптома

Должен ли я отказаться от несвязанной работы, назначенной научным руководителем?

Как выполнить структурное выравнивание ДНК в pymol