В чем разница между выравниванием последовательности и сборкой последовательности?

Я прочитал страницу википедии о выравнивании последовательности и сборке последовательности, но не смог найти никакой разницы между ними. В чем разница между выравниванием последовательности и сборкой последовательности? Если нет разницы, то почему терминология разная?

Ответы (3)

Выравнивание последовательности

Это делается для проверки сходства последовательностей между двумя или более различными последовательностями . Это даст информацию о том, чем отличаются две последовательности, каковы их эволюционные отношения, какие остатки сохраняются и т. д. Взгляните на следующее выравнивание последовательностей между различными последовательностями. (Изображение предоставлено Викискладом )

введите описание изображения здесь

Вы можете увидеть взаимодействие различных аминокислотных остатков в различных организмах, таких как человек, мышь, крыса и т. д.

Сборка последовательности

Это делается для создания длинной консенсусной последовательности из коротких фрагментов одной и той же последовательности . Как правило, сборка последовательности выполняется после секвенирования некоторого генома или большого фрагмента ДНК. Взгляните на следующее репрезентативное изображение сборки последовательности (любезно предоставлено: Wikimedia Commons )

введите описание изображения здесь

Здесь черная последовательность - это ваша исходная последовательность, которую вы хотели секвенировать. Однако из-за технических сложностей вы не можете секвенировать все сразу. Следовательно, вы фрагментируете и упорядочиваете разные фрагменты, которые показаны красным, синим и зеленым). Глядя на перекрывающуюся область между различными секвенированными фрагментами, вы вычисляете консенсус. Потенциально проблемные повторы показаны над последовательностью (розовым цветом). Здесь вы в идеале секвенируете только одну большую последовательность и собираете ее.

но это то же самое верно? Я имею в виду, что обоим можно было дать одно и то же имя...
Ну да. Сборка последовательности - это своего рода множественное выравнивание последовательности! Именование для того, чтобы избежать путаницы, я думаю.
@Rishika Как ясно показывает ответ Декстера, это не то же самое. Было бы неверным сказать, что вы выполняете сборку последовательности , когда на самом деле вы сравниваете геномы (выполняете выравнивание последовательности ) разных видов (например, как часть филогенетического анализа). Сказать, что вы выполняете выравнивание последовательности, когда вы выполняете сборку последовательности, может быть правильно (для некоторых шагов), но это немного вводит в заблуждение и не очень конкретно.
@fileunderwater верен. Я бы сказал, что сборка последовательности — это частный случай выравнивания последовательности.
хорошо, понял
@ Декстер Опять же, это не так. Выравнивание последовательностей является частью алгоритмов сборки последовательностей, но это не делает сборку частным случаем выравнивания.
ладно, спорная номенклатура

Эти две задачи совершенно разные.

Выравнивание означает сравнение последовательностей, чтобы найти различия между ними.
Сборка означает, что вы берете набор коротких последовательностей и пытаетесь сшить их вместе, чтобы воссоздать исходную последовательность ДНК.

Снимок экрана из DNA Baser Assembler «сборки для эталона».  Ссылка выделена фиолетовым цветом.  Прямая и обратная последовательности отмечены красным и зеленым цветом.  Контиг синий.
Рис. 1: Снимок экрана из DNA Baser Assembler «сборки для эталона». Ссылка выделена фиолетовым цветом. Прямая и обратная последовательности отмечены красным и зеленым цветом. Контиг синий.

Обратите внимание на ввод двух процессов:

Последовательности, входящие в выравнивание, (предположительно) уже очищены. Каждая база является правильной / точной.

Последовательности, которые входят в сборку, являются «грязными» и неточными, потому что весьма вероятно, что секвенатор создаст «плохие» основания на концах последовательности. Пользователю придется вручную проверять и очищать последовательности (хотя сегодня существуют интеллектуальные программы сборки, которые могут полностью автоматизировать процесс, сокращая время с 10 минут на контиг практически до нуля (менее 1 секунды)). Предпочтительно, чтобы несколько перекрывающихся последовательностей использовались для избыточности. Таким образом обнаруживаются и устраняются «плохие» базы.

После завершения сборки чистый контиг можно использовать для дальнейших операций (таких как выравнивание).

необработанные последовательности
введите описание изображения здесь

после обратного дополнения
введите описание изображения здесь

конечный контиг
введите описание изображения здесь

Не обязательно. Хорошей аналогией для различения двух стратегий секвенирования (не путать с технологиями секвенирования, т.е. Illumina, smrt, Oxford Nanopore и т. д.) было бы загадкой. В случае выравнивания последовательностей у вас будет набор кусочков головоломки, т. е. ваши чтения, и изображение готовой/завершенной головоломки, то есть ваш эталонный геном, который поможет вам собрать головоломку. При сборке последовательности у вас есть только кусочки головоломки, а не картинка, не эталонный геном. Это значительно усложняет сборку.

В первом случае вы сравните N прочтений только с одним эталонным геномом. Во втором случае вы сравните N прочтений с N «квази» эталонными геномами.

Оба сравнения хороши, но это только половина правды. Я могу выполнить выравнивание двух частей головоломки (попарное выравнивание) без ссылки. И я могу выполнить сборку по ссылкам (то, что вы описываете, является сборкой de novo), используя выравнивание по тесно связанной ссылке в качестве руководства для сборки. (так сборка с картинкой, на которой изображен не текущий пазл, а аналогичный).