Инструменты для анализа данных секвенирования РНК

Я надеюсь, что это хорошее место, чтобы задать такой вопрос. Мне нужно провести анализ данных секвенирования РНК из человеческих клеток. В настоящее время я ищу инструменты, которые помогут мне в этом. В частности, мне понадобятся некоторые инструменты для анализа экспрессии генов на основе данных. Что-то, что поможет мне построить график экспрессии выбранных генов в каждом файле fastq и сравнить различия в выражении с возможностью экспорта результатов или некоторым интерфейсом командной строки для сценариев. По сути, мне нужно что-то, куда я могу поместить файл fastq и, возможно, также файл аннотаций генома человека в качестве входных данных и получить экспрессию гена в качестве выходных данных. Я просмотрел биопроводник и его пакеты, а также список инструментов биоинформатики RNA-Seq в Википедии.. Я предполагаю, что некоторые из этих инструментов должны уметь делать то, что мне нужно, но я не смог выяснить, какой из них и как их следует использовать для достижения этой цели. Может ли кто-нибудь дать мне несколько советов?

Я предлагаю вам начать с хорошего чтения - что-то вроде анализа данных секвенирования РНК .

Ответы (6)

Вам, вероятно, понадобится инструмент для «картирования» прочтений эталонного генома. Вы можете найти такой эталонный геном вместе с аннотациями здесь: ftp://ussd-ftp.illumina.com/ .

Картографические инструменты, такие как Bowtie2 или bwa, берут файлы fastq и ссылаются на геномы и выводят результаты картирования в формате, называемом sam .

Затем у вас есть много вариантов для оценки экспрессии генов.

  • Вы можете написать свой собственный алгоритм для анализа формата sam и оценки нормализованного количества прочтений для каждого гена.

  • Для этого вы можете комбинировать более или менее низкоуровневые инструменты, такие как samtools, pysam, htseq, с некоторыми скриптами.

  • Вы можете использовать инструменты для подсчета (например, bedtools или htseq-count) и дифференциального анализа выражений (например, deseq2).

В последнем случае я бы посоветовал начать с документации последнего инструмента, чтобы выяснить, какие инструменты вам нужны для создания результатов предыдущего шага.

Весьма вероятно, что вы будете использовать R или Python, или использовать галактику веб-платформы для некоторых шагов.

Правки

Как упоминалось @scribaniwannabe в этом ответе , документ о наборе инструментов Tuxedo дает хороший пример шагов для проведения анализа РНК-секвенирования с использованием последних инструментов (по состоянию на октябрь 2016 г.).

Как напоминает @Student T в этом ответе , данные RNA-seq содержат чтения, которые могут исходить от экзон-экзонных соединений, поэтому устройство отображения чтения должно быть настроено таким образом, чтобы не отбрасывать чтения, не отображающие непрерывно по всей их длине на геном. Насколько мне известно, HISAT2 и CRAC делают это по умолчанию. Bowtie2 нуждается в специальных настройках.

TopHat — это часть пакета смокинга, который выполняет сопоставление с учетом сплайсинга.
@ swbarnes2 Вы правы в отношении старого комплекта смокинга (в новом используется HISAT2). Любопытно, что TopHat использует внутренне Bowtie2, и кажется, что он не использует режим «--local» (ищите «local» в исполняемом файле tophat, который оказывается сложной программой на Python). Я не знаю, как он достигает осведомленности о сращивании.

Хотя я также согласен с @bli, что R и Python (в частности Bioconductor) имеют более чем достаточно пакетов для сравнения экспрессии генов. Вы не должны согласовывать свои чтения с bwa или галстуком-бабочкой, потому что они не учитывают интроны. Вы должны использовать TopHatили STAR.

Вы правы, хотя Bowtie2 можно использовать с опцией --local, чтобы не отбрасывать карты чтения на соединениях экзон-экзон. Можно также использовать другие элайнеры: HISAT2 < ccb.jhu.edu/software/hisat2/index.shtml > и CRAC < crac.gforge.inria.fr >.

Ответ @bli дал отличный. Я подумал, что должен отметить, что Джонс Хопкинс также недавно обновил свой набор смокинга . Выглядит многообещающе и имеет отличную инструкцию по применению.

Кроме того, я начал очень любить инструмент GeneTrail 2 для моего вторичного анализа RNA-Seq. Дает отличные результаты для анализа обогащения.

Надеюсь, это полезно.

Наконец, мне также нравится использовать [HOMER][3] для поиска мотива de novo вверх/вниз по течению от промоторных областей дефференциально экспрессируемых генов. [3]: homer.salk.edu/homer/motif
Спасибо за ссылку о смокинге. Объяснения в статье кажутся полезными.

Я думаю, что в настоящее время STAR является предпочтительным устройством для сращивания. STAR может выводить подсчеты по генам или по транскриптам. Предполагая, что у вас есть данные Illumina, вы можете попробовать использовать инструменты в BaseSpace Illumina. RNASeq может быть одной из вещей, которые вы можете сделать там бесплатно.

pyrpipe утверждает, что является универсальной библиотекой Python для анализа секвенирования РНК. Вот иллюстрация из их статьи :

введите описание изображения здесь

Кроме того, я хотел бы обратить внимание на официальный конвейер ENCODE RNA-seq, который активно поддерживается в репозитории ENCODE-DCC на GitHub .

Я думаю , что HTSeq делает почти то же самое. Он выводит матрицу количества прочтений на ген с учетом образца fastq и файла аннотаций.