Рекомендуемый алгоритм кластеризации последовательностей для данных транскриптома

Я работаю над проектом, в котором собираюсь проанализировать большое количество данных транскриптома. После сборки наших считываний RNA-Seq в контиги с помощью Trinity, похоже, у меня будет около 10 ГБ последовательностей в формате fasta. Поскольку эти последовательности взяты из нескольких сотен библиотек тканей, но из одного вида (курицы), я ожидаю, что будет много избыточности, поэтому я хотел бы сгруппировать эти последовательности и просто использовать репрезентативную последовательность из каждого кластера, поскольку я продолжайте мой анализ. Я вижу, что существует довольно много инструментов для подобных вещей, и мне интересно, что бы вы все порекомендовали. Я буду запускать это на машине Linux с 64 ядрами ЦП и ~ 500 ГБ ОЗУ.

Я начал искать USEARCH, но, похоже, у меня возникнут некоторые проблемы с памятью в бесплатной 32-разрядной версии, и сколько бы я ни щелкал по их сайту, я не мог понять, сколько стоит 64-разрядная версия. или как купить.

Я думаю, что clustalw должен уметь это делать... но я не уверен, как получить кластеры... Может быть, в одном из выходных файлов... Просто проверьте... Если вы хотите использовать многоядерные процессоры, вам нужен распараллеливаемый инструмент.. я посмотрю

Ответы (2)

Похоже, у вас много данных.

Сначала я бы попробовал другой новый инструмент Роберта Эдгара UPARSE, который быстрее и может обрабатывать больше данных, используя бесплатную 32-разрядную версию. Я думаю, вы в основном будете ограничены машинной памятью, верно?

Вы пробовали CD-Hit?

Да, память будет ограничивающим фактором. Я только что установил CD-Hit на свою машину, так что попробую.
cd-hit-est наверное хороший вариант

Колин, единственный способ пойти - это программное обеспечение Эдгара, напишите ему robert@drive5.com, это тысяча за копию (в 2012 году), которая стоит каждого пенни.

введите описание изображения здесь