Сегодня мой коллега задал следующий вопрос:
«Предполагая, что мне нужно построить из 0 хромосому рыбы с короткими чтениями, но без какой-либо другой ссылки [сборка de novo] :
- сколько это работы?
- Существует ли универсальное программное обеспечение (например, SAMtools), которое будет выравнивать чтения в каркасе, который можно использовать?
- По сути, учитывая достаточно четкий конвейер с точки зрения программного обеспечения, это все еще кровавый пот и слезы или это просто вопрос размещения его на кластере?»
Очень благодарен за любые предложения, источники информации, программное обеспечение и т.д.
Вы можете попробовать поискать на сайте biostars.org, который похож на stackexchange, но для биоинформатики.
Velvet — один из примеров ассемблера de novo.
Но 30 пар оснований — это очень мало, а у животных большие геномы (не такие прочные, как у многих растений и грибов, но все же прочные).
То, что вы получите, это миллиард коротких контигов. Это было бы некрасиво.
Если вы хотите использовать только методы секвенирования, у вас проблемы.
Чтобы получить представление о том, каких результатов можно ожидать, рассмотрите эту статью, недавно опубликованную в Nature Genetics. Они пытались собрать геном кита de novo. У них было 7 (!) библиотек парных концов с разной длиной вставок от 170 п.н. до 20 т.п.н. Длина считывания в основном составляла 100 п.н., а в некоторых случаях — 49 п.н. Среднее покрытие генома составило 91x.
Собирая эти обширные данные, они получают более 100 000 контигов, когда сборка завершена.
Таким образом, вы действительно не можете получить высококачественный сложный (т.е. большой) геном, собранный только из данных секвенирования с коротким считыванием, используя стандартные методы.
Тем не менее, недавние подходы, такие как библиотеки с гораздо большей длиной чтения ( здесь ) или использование данных Hi-C ( здесь и здесь ), действительно предлагают способ получения высококачественных сложных геномных сборок, используя только данные секвенирования.
Мне очень нравится гениальный программный пакет. Он может работать в многопоточном режиме и действительно использует производительность вашего компьютера. Даже такие сложные вещи, как сборка De Novo, очень и очень интуитивно понятны.
Конрад Рудольф
Томас Ингаллс
привет_там_энди
Томас Ингаллс