Я прочитал страницу википедии о выравнивании последовательности и сборке последовательности, но не смог найти никакой разницы между ними. В чем разница между выравниванием последовательности и сборкой последовательности? Если нет разницы, то почему терминология разная?
Выравнивание последовательности
Это делается для проверки сходства последовательностей между двумя или более различными последовательностями . Это даст информацию о том, чем отличаются две последовательности, каковы их эволюционные отношения, какие остатки сохраняются и т. д. Взгляните на следующее выравнивание последовательностей между различными последовательностями. (Изображение предоставлено Викискладом )
Вы можете увидеть взаимодействие различных аминокислотных остатков в различных организмах, таких как человек, мышь, крыса и т. д.
Сборка последовательности
Это делается для создания длинной консенсусной последовательности из коротких фрагментов одной и той же последовательности . Как правило, сборка последовательности выполняется после секвенирования некоторого генома или большого фрагмента ДНК. Взгляните на следующее репрезентативное изображение сборки последовательности (любезно предоставлено: Wikimedia Commons )
Здесь черная последовательность - это ваша исходная последовательность, которую вы хотели секвенировать. Однако из-за технических сложностей вы не можете секвенировать все сразу. Следовательно, вы фрагментируете и упорядочиваете разные фрагменты, которые показаны красным, синим и зеленым). Глядя на перекрывающуюся область между различными секвенированными фрагментами, вы вычисляете консенсус. Потенциально проблемные повторы показаны над последовательностью (розовым цветом). Здесь вы в идеале секвенируете только одну большую последовательность и собираете ее.
Эти две задачи совершенно разные.
Выравнивание означает сравнение последовательностей, чтобы найти различия между ними.
Сборка означает, что вы берете набор коротких последовательностей и пытаетесь сшить их вместе, чтобы воссоздать исходную последовательность ДНК.
Рис. 1: Снимок экрана из DNA Baser Assembler «сборки для эталона». Ссылка выделена фиолетовым цветом. Прямая и обратная последовательности отмечены красным и зеленым цветом. Контиг синий.
Обратите внимание на ввод двух процессов:
Последовательности, входящие в выравнивание, (предположительно) уже очищены. Каждая база является правильной / точной.
Последовательности, которые входят в сборку, являются «грязными» и неточными, потому что весьма вероятно, что секвенатор создаст «плохие» основания на концах последовательности. Пользователю придется вручную проверять и очищать последовательности (хотя сегодня существуют интеллектуальные программы сборки, которые могут полностью автоматизировать процесс, сокращая время с 10 минут на контиг практически до нуля (менее 1 секунды)). Предпочтительно, чтобы несколько перекрывающихся последовательностей использовались для избыточности. Таким образом обнаруживаются и устраняются «плохие» базы.
После завершения сборки чистый контиг можно использовать для дальнейших операций (таких как выравнивание).
Не обязательно. Хорошей аналогией для различения двух стратегий секвенирования (не путать с технологиями секвенирования, т.е. Illumina, smrt, Oxford Nanopore и т. д.) было бы загадкой. В случае выравнивания последовательностей у вас будет набор кусочков головоломки, т. е. ваши чтения, и изображение готовой/завершенной головоломки, то есть ваш эталонный геном, который поможет вам собрать головоломку. При сборке последовательности у вас есть только кусочки головоломки, а не картинка, не эталонный геном. Это значительно усложняет сборку.
В первом случае вы сравните N прочтений только с одним эталонным геномом. Во втором случае вы сравните N прочтений с N «квази» эталонными геномами.
девушка101
Декстер
файлподводный
Декстер
девушка101
скаймнинген
девушка101