Насколько легко осуществить сборку последовательности de novo?

Сегодня мой коллега задал следующий вопрос:

«Предполагая, что мне нужно построить из 0 хромосому рыбы с короткими чтениями, но без какой-либо другой ссылки [сборка de novo] :

  • сколько это работы?
  • Существует ли универсальное программное обеспечение (например, SAMtools), которое будет выравнивать чтения в каркасе, который можно использовать?
  • По сути, учитывая достаточно четкий конвейер с точки зрения программного обеспечения, это все еще кровавый пот и слезы или это просто вопрос размещения его на кластере?»

Очень благодарен за любые предложения, источники информации, программное обеспечение и т.д.

Вкратце: Это кровь, пот и слезы. Я сам еще не участвовал в этом, но я знаю людей, которые этим занимаются. В зависимости от сложности генома вы получите тонны (они получили порядка 1 миллиона) непересекающихся контигов.
действительно ли необходимо использовать чтение 30bp? это очень коротко.
ура, ребята, на самом деле я нажал ~ 30 б.п., чтобы дать представление, но, возможно, это более гибко, какие длины вы имеете в виду @ThomasIngalls? Хм, интересно, чем вызваны кровавый пот и слезы? Я полагал, что будут какие-то стандартные конвейеры для автоматизации всего этого?
Секвенирование de novo без использования некоторых давно читаемых методов для очистки (таких как секвенирование по Сэнгеру) требует большого охвата, и вы все равно получаете значительную неопределенность в результатах из-за большого количества повторяющихся последовательностей, которые в большинстве случаев длиннее 30 пар оснований. геномы. Ответ @bitwise дает отличное представление о том, о чем я думал.

Ответы (3)

Вы можете попробовать поискать на сайте biostars.org, который похож на stackexchange, но для биоинформатики.

Velvet — один из примеров ассемблера de novo.

Но 30 пар оснований — это очень мало, а у животных большие геномы (не такие прочные, как у многих растений и грибов, но все же прочные).

То, что вы получите, это миллиард коротких контигов. Это было бы некрасиво.

ура за рекомендацию Velvet

Если вы хотите использовать только методы секвенирования, у вас проблемы.

Чтобы получить представление о том, каких результатов можно ожидать, рассмотрите эту статью, недавно опубликованную в Nature Genetics. Они пытались собрать геном кита de novo. У них было 7 (!) библиотек парных концов с разной длиной вставок от 170 п.н. до 20 т.п.н. Длина считывания в основном составляла 100 п.н., а в некоторых случаях — 49 п.н. Среднее покрытие генома составило 91x.

Собирая эти обширные данные, они получают более 100 000 контигов, когда сборка завершена.

Таким образом, вы действительно не можете получить высококачественный сложный (т.е. большой) геном, собранный только из данных секвенирования с коротким считыванием, используя стандартные методы.

Тем не менее, недавние подходы, такие как библиотеки с гораздо большей длиной чтения ( здесь ) или использование данных Hi-C ( здесь и здесь ), действительно предлагают способ получения высококачественных сложных геномных сборок, используя только данные секвенирования.

«Если вы хотите использовать только методы секвенирования, у вас проблемы». -- Вы имеете в виду методы повторного секвенирования или методы высокопроизводительного секвенирования?
@ThomasIngalls Я имею в виду сборку сложного генома de novo с использованием высокопроизводительного секвенирования. Ресеквенирование сборки не является сборкой de novo.

Мне очень нравится гениальный программный пакет. Он может работать в многопоточном режиме и действительно использует производительность вашего компьютера. Даже такие сложные вещи, как сборка De Novo, очень и очень интуитивно понятны.