Инструменты для анализа данных секвенирования РНК

Question

Инструменты для анализа данных секвенирования РНК

Биология
биоинформатика
секвенирование РНК

пользователь1747134

Я надеюсь, что это хорошее место, чтобы задать такой вопрос. Мне нужно провести анализ данных секвенирования РНК из человеческих клеток. В настоящее время я ищу инструменты, которые помогут мне в этом. В частности, мне понадобятся некоторые инструменты для анализа экспрессии генов на основе данных. Что-то, что поможет мне построить график экспрессии выбранных генов в каждом файле fastq и сравнить различия в выражении с возможностью экспорта результатов или некоторым интерфейсом командной строки для сценариев. По сути, мне нужно что-то, куда я могу поместить файл fastq и, возможно, также файл аннотаций генома человека в качестве входных данных и получить экспрессию гена в качестве выходных данных. Я просмотрел биопроводник и его пакеты, а также список инструментов биоинформатики RNA-Seq в Википедии.. Я предполагаю, что некоторые из этих инструментов должны уметь делать то, что мне нужно, но я не смог выяснить, какой из них и как их следует использовать для достижения этой цели. Может ли кто-нибудь дать мне несколько советов?

алефрейш

Я предлагаю вам начать с хорошего чтения - что-то вроде анализа данных секвенирования РНК .

Ответы (6)

Инструменты для анализа данных секвенирования РНК

Я предлагаю вам начать с хорошего чтения - что-то вроде анализа данных секвенирования РНК .

Бли · Answer 1

Вам, вероятно, понадобится инструмент для «картирования» прочтений эталонного генома. Вы можете найти такой эталонный геном вместе с аннотациями здесь: ftp://ussd-ftp.illumina.com/ .

Картографические инструменты, такие как Bowtie2 или bwa, берут файлы fastq и ссылаются на геномы и выводят результаты картирования в формате, называемом sam .

Затем у вас есть много вариантов для оценки экспрессии генов.

Вы можете написать свой собственный алгоритм для анализа формата sam и оценки нормализованного количества прочтений для каждого гена.
Для этого вы можете комбинировать более или менее низкоуровневые инструменты, такие как samtools, pysam, htseq, с некоторыми скриптами.
Вы можете использовать инструменты для подсчета (например, bedtools или htseq-count) и дифференциального анализа выражений (например, deseq2).

В последнем случае я бы посоветовал начать с документации последнего инструмента, чтобы выяснить, какие инструменты вам нужны для создания результатов предыдущего шага.

Весьма вероятно, что вы будете использовать R или Python, или использовать галактику веб-платформы для некоторых шагов.

Правки

Как упоминалось @scribaniwannabe в этом ответе , документ о наборе инструментов Tuxedo дает хороший пример шагов для проведения анализа РНК-секвенирования с использованием последних инструментов (по состоянию на октябрь 2016 г.).

Как напоминает @Student T в этом ответе , данные RNA-seq содержат чтения, которые могут исходить от экзон-экзонных соединений, поэтому устройство отображения чтения должно быть настроено таким образом, чтобы не отбрасывать чтения, не отображающие непрерывно по всей их длине на геном. Насколько мне известно, HISAT2 и CRAC делают это по умолчанию. Bowtie2 нуждается в специальных настройках.

TopHat — это часть пакета смокинга, который выполняет сопоставление с учетом сплайсинга.
@ swbarnes2 Вы правы в отношении старого комплекта смокинга (в новом используется HISAT2). Любопытно, что TopHat использует внутренне Bowtie2, и кажется, что он не использует режим «--local» (ищите «local» в исполняемом файле tophat, который оказывается сложной программой на Python). Я не знаю, как он достигает осведомленности о сращивании.

МаленькиеШахматы · Answer 2

Хотя я также согласен с @bli, что R и Python (в частности Bioconductor) имеют более чем достаточно пакетов для сравнения экспрессии генов. Вы не должны согласовывать свои чтения с bwa или галстуком-бабочкой, потому что они не учитывают интроны. Вы должны использовать TopHatили STAR.

Вы правы, хотя Bowtie2 можно использовать с опцией --local, чтобы не отбрасывать карты чтения на соединениях экзон-экзон. Можно также использовать другие элайнеры: HISAT2 < ccb.jhu.edu/software/hisat2/index.shtml > и CRAC < crac.gforge.inria.fr >.

aaiezza · Answer 3

Ответ @bli дал отличный. Я подумал, что должен отметить, что Джонс Хопкинс также недавно обновил свой набор смокинга . Выглядит многообещающе и имеет отличную инструкцию по применению.

Кроме того, я начал очень любить инструмент GeneTrail 2 для моего вторичного анализа RNA-Seq. Дает отличные результаты для анализа обогащения.

Надеюсь, это полезно.

Наконец, мне также нравится использовать [HOMER][3] для поиска мотива de novo вверх/вниз по течению от промоторных областей дефференциально экспрессируемых генов. [3]: homer.salk.edu/homer/motif
Спасибо за ссылку о смокинге. Объяснения в статье кажутся полезными.

Субарнс2 · Answer 4

Я думаю, что в настоящее время STAR является предпочтительным устройством для сращивания. STAR может выводить подсчеты по генам или по транскриптам. Предполагая, что у вас есть данные Illumina, вы можете попробовать использовать инструменты в BaseSpace Illumina. RNASeq может быть одной из вещей, которые вы можете сделать там бесплатно.

0x90 · Answer 5

pyrpipe утверждает, что является универсальной библиотекой Python для анализа секвенирования РНК. Вот иллюстрация из их статьи :

Кроме того, я хотел бы обратить внимание на официальный конвейер ENCODE RNA-seq, который активно поддерживается в репозитории ENCODE-DCC на GitHub .

пользователь3494047 · Answer 6

Я думаю , что HTSeq делает почти то же самое. Он выводит матрицу количества прочтений на ген с учетом образца fastq и файла аннотаций.

Инструменты для анализа данных секвенирования РНК

пользователь1747134

алефрейш

Ответы (6)

Бли

Правки

Субарнс2

Бли

МаленькиеШахматы

Бли

aaiezza

aaiezza

Бли

Субарнс2

0x90

пользователь3494047

Какую информацию можно извлечь из данных РНК-секвенирования во времени?

Как преобразовать формат файла FASTQ в формат файла GTF?

Биологическое значение длины чтения

Термины GO для немодельных организмов

Несколько транскриптов, совпадающих с одним и тем же геном в de novo, собрали данные секвенирования РНК, но значения FPKM различаются?

Почему сборка спаренного торцевого осветителя без каких-либо входных параметров является важной задачей?

Все ли изоформы микроРНК должны быть известны и секвенированы для получения экспрессии микроРНК?

определение значения основных биологических ключевых слов о C. elegans

Как я могу определить, являются ли данные RNA-seq парными концами или одиночными концами

Проблемы с анализом данных малых РНКсек — обрезка адаптера