Насколько легко осуществить сборку последовательности de novo?

Question

Насколько легко осуществить сборку последовательности de novo?

ДНК
Биология
Софт
биоинформатика
секвенирование ДНК
последовательность-сборка

привет_там_энди

Сегодня мой коллега задал следующий вопрос:

«Предполагая, что мне нужно построить из 0 хромосому рыбы с короткими чтениями, но без какой-либо другой ссылки [сборка de novo] :

сколько это работы?

Существует ли универсальное программное обеспечение (например, SAMtools), которое будет выравнивать чтения в каркасе, который можно использовать?

По сути, учитывая достаточно четкий конвейер с точки зрения программного обеспечения, это все еще кровавый пот и слезы или это просто вопрос размещения его на кластере?»

Очень благодарен за любые предложения, источники информации, программное обеспечение и т.д.

Конрад Рудольф

Вкратце: Это кровь, пот и слезы. Я сам еще не участвовал в этом, но я знаю людей, которые этим занимаются. В зависимости от сложности генома вы получите тонны (они получили порядка 1 миллиона) непересекающихся контигов.

Томас Ингаллс

действительно ли необходимо использовать чтение 30bp? это очень коротко.

привет_там_энди

ура, ребята, на самом деле я нажал ~ 30 б.п., чтобы дать представление, но, возможно, это более гибко, какие длины вы имеете в виду @ThomasIngalls? Хм, интересно, чем вызваны кровавый пот и слезы? Я полагал, что будут какие-то стандартные конвейеры для автоматизации всего этого?

Томас Ингаллс

Секвенирование de novo без использования некоторых давно читаемых методов для очистки (таких как секвенирование по Сэнгеру) требует большого охвата, и вы все равно получаете значительную неопределенность в результатах из-за большого количества повторяющихся последовательностей, которые в большинстве случаев длиннее 30 пар оснований. геномы. Ответ @bitwise дает отличное представление о том, о чем я думал.

Ответы (3)

Насколько легко осуществить сборку последовательности de novo?

Вкратце: Это кровь, пот и слезы. Я сам еще не участвовал в этом, но я знаю людей, которые этим занимаются. В зависимости от сложности генома вы получите тонны (они получили порядка 1 миллиона) непересекающихся контигов.
действительно ли необходимо использовать чтение 30bp? это очень коротко.
ура, ребята, на самом деле я нажал ~ 30 б.п., чтобы дать представление, но, возможно, это более гибко, какие длины вы имеете в виду @ThomasIngalls? Хм, интересно, чем вызваны кровавый пот и слезы? Я полагал, что будут какие-то стандартные конвейеры для автоматизации всего этого?
Секвенирование de novo без использования некоторых давно читаемых методов для очистки (таких как секвенирование по Сэнгеру) требует большого охвата, и вы все равно получаете значительную неопределенность в результатах из-за большого количества повторяющихся последовательностей, которые в большинстве случаев длиннее 30 пар оснований. геномы. Ответ @bitwise дает отличное представление о том, о чем я думал.

Субарнс2 · Answer 1

Вы можете попробовать поискать на сайте biostars.org, который похож на stackexchange, но для биоинформатики.

Velvet — один из примеров ассемблера de novo.

Но 30 пар оснований — это очень мало, а у животных большие геномы (не такие прочные, как у многих растений и грибов, но все же прочные).

То, что вы получите, это миллиард коротких контигов. Это было бы некрасиво.

Побитовый · Answer 2

Если вы хотите использовать только методы секвенирования, у вас проблемы.

Чтобы получить представление о том, каких результатов можно ожидать, рассмотрите эту статью, недавно опубликованную в Nature Genetics. Они пытались собрать геном кита de novo. У них было 7 (!) библиотек парных концов с разной длиной вставок от 170 п.н. до 20 т.п.н. Длина считывания в основном составляла 100 п.н., а в некоторых случаях — 49 п.н. Среднее покрытие генома составило 91x.

Собирая эти обширные данные, они получают более 100 000 контигов, когда сборка завершена.

Таким образом, вы действительно не можете получить высококачественный сложный (т.е. большой) геном, собранный только из данных секвенирования с коротким считыванием, используя стандартные методы.

Тем не менее, недавние подходы, такие как библиотеки с гораздо большей длиной чтения ( здесь ) или использование данных Hi-C ( здесь и здесь ), действительно предлагают способ получения высококачественных сложных геномных сборок, используя только данные секвенирования.

«Если вы хотите использовать только методы секвенирования, у вас проблемы». -- Вы имеете в виду методы повторного секвенирования или методы высокопроизводительного секвенирования?
@ThomasIngalls Я имею в виду сборку сложного генома de novo с использованием высокопроизводительного секвенирования. Ресеквенирование сборки не является сборкой de novo.

jwillis0720 · Answer 3

Мне очень нравится гениальный программный пакет. Он может работать в многопоточном режиме и действительно использует производительность вашего компьютера. Даже такие сложные вещи, как сборка De Novo, очень и очень интуитивно понятны.

Насколько легко осуществить сборку последовательности de novo?

привет_там_энди

Конрад Рудольф

Томас Ингаллс

привет_там_энди

Томас Ингаллс

Ответы (3)

Субарнс2

привет_там_энди

Побитовый

Томас Ингаллс

Побитовый

jwillis0720

Для чего именно компьютеры используются при секвенировании ДНК?

Инструмент для выравнивания нуклеотидов со всеми кодами нуклеотидов (например, R, Y, W, S и т. д.)?

Почему сборка спаренного торцевого осветителя без каких-либо входных параметров является важной задачей?

Компьютерный вирус, поражающий ДНК?

Выравнивание секвенированных фрагментов в секвенировании следующего поколения (сборка последовательности) [закрыто]

Каков тип данных образца ДНК?

Эталонная последовательность для определения однонуклеотидных полиморфизмов

Зачем нам нужно глубокое секвенирование?

где найти относительное частотное распределение синонимичных кодонов

В чем разница между последовательностью, чтением и контигом генетического материала?