В чем разница между выравниванием последовательности и сборкой последовательности?

Question

В чем разница между выравниванием последовательности и сборкой последовательности?

Биология
секвенирование ДНК
анализ последовательности
последовательность-сборка
выравнивание последовательности

девушка101

Я прочитал страницу википедии о выравнивании последовательности и сборке последовательности, но не смог найти никакой разницы между ними. В чем разница между выравниванием последовательности и сборкой последовательности? Если нет разницы, то почему терминология разная?

Ответы (3)

В чем разница между выравниванием последовательности и сборкой последовательности?

Декстер · Answer 1

Выравнивание последовательности

Это делается для проверки сходства последовательностей между двумя или более различными последовательностями . Это даст информацию о том, чем отличаются две последовательности, каковы их эволюционные отношения, какие остатки сохраняются и т. д. Взгляните на следующее выравнивание последовательностей между различными последовательностями. (Изображение предоставлено Викискладом )

Вы можете увидеть взаимодействие различных аминокислотных остатков в различных организмах, таких как человек, мышь, крыса и т. д.

Сборка последовательности

Это делается для создания длинной консенсусной последовательности из коротких фрагментов одной и той же последовательности . Как правило, сборка последовательности выполняется после секвенирования некоторого генома или большого фрагмента ДНК. Взгляните на следующее репрезентативное изображение сборки последовательности (любезно предоставлено: Wikimedia Commons )

Здесь черная последовательность - это ваша исходная последовательность, которую вы хотели секвенировать. Однако из-за технических сложностей вы не можете секвенировать все сразу. Следовательно, вы фрагментируете и упорядочиваете разные фрагменты, которые показаны красным, синим и зеленым). Глядя на перекрывающуюся область между различными секвенированными фрагментами, вы вычисляете консенсус. Потенциально проблемные повторы показаны над последовательностью (розовым цветом). Здесь вы в идеале секвенируете только одну большую последовательность и собираете ее.

но это то же самое верно? Я имею в виду, что обоим можно было дать одно и то же имя...
Ну да. Сборка последовательности - это своего рода множественное выравнивание последовательности! Именование для того, чтобы избежать путаницы, я думаю.
@Rishika Как ясно показывает ответ Декстера, это не то же самое. Было бы неверным сказать, что вы выполняете сборку последовательности , когда на самом деле вы сравниваете геномы (выполняете выравнивание последовательности ) разных видов (например, как часть филогенетического анализа). Сказать, что вы выполняете выравнивание последовательности, когда вы выполняете сборку последовательности, может быть правильно (для некоторых шагов), но это немного вводит в заблуждение и не очень конкретно.
@fileunderwater верен. Я бы сказал, что сборка последовательности — это частный случай выравнивания последовательности.
@ Декстер Опять же, это не так. Выравнивание последовательностей является частью алгоритмов сборки последовательностей, но это не делает сборку частным случаем выравнивания.

Сила тяжести · Answer 2

Эти две задачи совершенно разные.

Выравнивание означает сравнение последовательностей, чтобы найти различия между ними.
Сборка означает, что вы берете набор коротких последовательностей и пытаетесь сшить их вместе, чтобы воссоздать исходную последовательность ДНК.

Рис. 1: Снимок экрана из DNA Baser Assembler «сборки для эталона». Ссылка выделена фиолетовым цветом. Прямая и обратная последовательности отмечены красным и зеленым цветом. Контиг синий.

Обратите внимание на ввод двух процессов:

Последовательности, входящие в выравнивание, (предположительно) уже очищены. Каждая база является правильной / точной.

Последовательности, которые входят в сборку, являются «грязными» и неточными, потому что весьма вероятно, что секвенатор создаст «плохие» основания на концах последовательности. Пользователю придется вручную проверять и очищать последовательности (хотя сегодня существуют интеллектуальные программы сборки, которые могут полностью автоматизировать процесс, сокращая время с 10 минут на контиг практически до нуля (менее 1 секунды)). Предпочтительно, чтобы несколько перекрывающихся последовательностей использовались для избыточности. Таким образом обнаруживаются и устраняются «плохие» базы.

После завершения сборки чистый контиг можно использовать для дальнейших операций (таких как выравнивание).

необработанные последовательности

после обратного дополнения

конечный контиг

аминомикс · Answer 3

Не обязательно. Хорошей аналогией для различения двух стратегий секвенирования (не путать с технологиями секвенирования, т.е. Illumina, smrt, Oxford Nanopore и т. д.) было бы загадкой. В случае выравнивания последовательностей у вас будет набор кусочков головоломки, т. е. ваши чтения, и изображение готовой/завершенной головоломки, то есть ваш эталонный геном, который поможет вам собрать головоломку. При сборке последовательности у вас есть только кусочки головоломки, а не картинка, не эталонный геном. Это значительно усложняет сборку.

В первом случае вы сравните N прочтений только с одним эталонным геномом. Во втором случае вы сравните N прочтений с N «квази» эталонными геномами.

Оба сравнения хороши, но это только половина правды. Я могу выполнить выравнивание двух частей головоломки (попарное выравнивание) без ссылки. И я могу выполнить сборку по ссылкам (то, что вы описываете, является сборкой de novo), используя выравнивание по тесно связанной ссылке в качестве руководства для сборки. (так сборка с картинкой, на которой изображен не текущий пазл, а аналогичный).

В чем разница между выравниванием последовательности и сборкой последовательности?

девушка101

Ответы (3)

Декстер

девушка101

Декстер

файлподводный

Декстер

девушка101

скаймнинген

девушка101

Сила тяжести

аминомикс

скаймнинген

Какие факторы следует учитывать при выборе эталонного генома для картирования?

Что сегодня ограничивает точность секвенирования генома?

Каково типичное расположение амплифицированных генов в геноме архей?

Как интерпретировать матрицу процентной идентичности, созданную Clustal Omega?

Стандартные наборы данных для тестирования новых алгоритмов множественного выравнивания последовательностей?

В чем разница между локальным и глобальным выравниванием последовательностей?

Как сравнить реализации алгоритма Смита – Уотермана?

Как выглядят парные концевые показания Illumina HiSeq/MiSeq?

конституция области чтения и гена (IGV)

Инструмент для выравнивания нуклеотидов со всеми кодами нуклеотидов (например, R, Y, W, S и т. д.)?