Я надеюсь, что это хорошее место, чтобы задать такой вопрос. Мне нужно провести анализ данных секвенирования РНК из человеческих клеток. В настоящее время я ищу инструменты, которые помогут мне в этом. В частности, мне понадобятся некоторые инструменты для анализа экспрессии генов на основе данных. Что-то, что поможет мне построить график экспрессии выбранных генов в каждом файле fastq и сравнить различия в выражении с возможностью экспорта результатов или некоторым интерфейсом командной строки для сценариев. По сути, мне нужно что-то, куда я могу поместить файл fastq и, возможно, также файл аннотаций генома человека в качестве входных данных и получить экспрессию гена в качестве выходных данных. Я просмотрел биопроводник и его пакеты, а также список инструментов биоинформатики RNA-Seq в Википедии.. Я предполагаю, что некоторые из этих инструментов должны уметь делать то, что мне нужно, но я не смог выяснить, какой из них и как их следует использовать для достижения этой цели. Может ли кто-нибудь дать мне несколько советов?
Вам, вероятно, понадобится инструмент для «картирования» прочтений эталонного генома. Вы можете найти такой эталонный геном вместе с аннотациями здесь: ftp://ussd-ftp.illumina.com/ .
Картографические инструменты, такие как Bowtie2 или bwa, берут файлы fastq и ссылаются на геномы и выводят результаты картирования в формате, называемом sam .
Затем у вас есть много вариантов для оценки экспрессии генов.
Вы можете написать свой собственный алгоритм для анализа формата sam и оценки нормализованного количества прочтений для каждого гена.
Для этого вы можете комбинировать более или менее низкоуровневые инструменты, такие как samtools, pysam, htseq, с некоторыми скриптами.
Вы можете использовать инструменты для подсчета (например, bedtools или htseq-count) и дифференциального анализа выражений (например, deseq2).
В последнем случае я бы посоветовал начать с документации последнего инструмента, чтобы выяснить, какие инструменты вам нужны для создания результатов предыдущего шага.
Весьма вероятно, что вы будете использовать R или Python, или использовать галактику веб-платформы для некоторых шагов.
Как упоминалось @scribaniwannabe в этом ответе , документ о наборе инструментов Tuxedo дает хороший пример шагов для проведения анализа РНК-секвенирования с использованием последних инструментов (по состоянию на октябрь 2016 г.).
Как напоминает @Student T в этом ответе , данные RNA-seq содержат чтения, которые могут исходить от экзон-экзонных соединений, поэтому устройство отображения чтения должно быть настроено таким образом, чтобы не отбрасывать чтения, не отображающие непрерывно по всей их длине на геном. Насколько мне известно, HISAT2 и CRAC делают это по умолчанию. Bowtie2 нуждается в специальных настройках.
Хотя я также согласен с @bli, что R и Python (в частности Bioconductor
) имеют более чем достаточно пакетов для сравнения экспрессии генов. Вы не должны согласовывать свои чтения с bwa или галстуком-бабочкой, потому что они не учитывают интроны. Вы должны использовать TopHat
или STAR
.
Ответ @bli дал отличный. Я подумал, что должен отметить, что Джонс Хопкинс также недавно обновил свой набор смокинга . Выглядит многообещающе и имеет отличную инструкцию по применению.
Кроме того, я начал очень любить инструмент GeneTrail 2 для моего вторичного анализа RNA-Seq. Дает отличные результаты для анализа обогащения.
Надеюсь, это полезно.
Я думаю, что в настоящее время STAR является предпочтительным устройством для сращивания. STAR может выводить подсчеты по генам или по транскриптам. Предполагая, что у вас есть данные Illumina, вы можете попробовать использовать инструменты в BaseSpace Illumina. RNASeq может быть одной из вещей, которые вы можете сделать там бесплатно.
Я думаю , что HTSeq делает почти то же самое. Он выводит матрицу количества прочтений на ген с учетом образца fastq и файла аннотаций.
алефрейш