Дифференциальный анализ экспрессии генов между видами

Question

Дифференциальный анализ экспрессии генов между видами

Биология
биоинформатика
секвенирование РНК
генная экспрессия

И. Сетхи

У меня есть данные секвенирования РНК из кожи мыши и человека (по 2 повторения каждого) и я хочу сравнить экспрессию ортологичных генов, чтобы найти те, которые экспрессируются по-разному. Я квантильно нормализовал матрицу экспрессии генов во всех 4 образцах (2 мыши + 2 человека). В конечном итоге я хочу рассчитать логарифмическое изменение экспрессии всех ортологичных генов между двумя видами. Однако прежде чем я это сделаю, я должен проверить длину гена, верно? Будет ли этого достаточно, чтобы дать мне представление о дифференциально выраженных генах, или мне следует использовать более сложные методы? Любые комментарии будут полезны. Большое спасибо.

МэттДмо

Это может лучше подходить для Cross Validated .

Ответы (1)

Дифференциальный анализ экспрессии генов между видами

Это может лучше подходить для Cross Validated .

Анкур Чакраварти · Answer 1

Анкур Чакраварти

На самом деле это зависит от того, какой тип данных у вас есть. Существуют методы, разработанные исключительно для количественной оценки относительной экспрессии на основе данных подсчета, например, с использованием edgeR или limma-voom.

Вам не нужно корректировать длину гена, чтобы оценить кратность изменений относительной экспрессии, вам нужно сначала нормализовать размер библиотеки (и в процессе получить log2 ((counts + 0,5)/1e+06), а затем , после нормализации квантилей вы можете просто вычислить мышь-человек или человек-мышь, чтобы получить оценку кратного изменения.

Тем не менее, я бы порекомендовал использовать для этой задачи что-то более сложное, например, limma-voom, потому что это также позволит вам получить такие вещи, как коэффициент ложных открытий для ваших изменений фолда.

И. Сетхи

У меня есть данные подсчета. Однако причина, по которой я не решаюсь использовать такие пакеты, как edgeR или DESeq2, заключается в том, что они предназначены для сравнения экспрессии одного и того же гена в двух условиях. Я, с другой стороны, хочу сравнить экспрессию ортологичных генов (гены diff с разной длиной) между двумя видами. Кроме того, если я выполняю квантильную нормализацию (т.е. накладываю одно и то же распределение на все образцы), нужно ли мне по-прежнему контролировать размер библиотеки?

Анкур Чакраварти

Да, это норма контролировать размер библиотеки, а затем нормализовать квантили - вам всегда нужно контролировать количество подсчетов для того, сколько чтений было секвенировано на образец. Ортологи с разной длиной должны быть в порядке - я имею в виду, в любом случае limma-voom, например, оценивает дифференциальную экспрессию на уровне генов без учета изоформ (которые имеют разную длину). Технически ортологи можно рассматривать как варианты одних и тех же генов, так что, возможно, попробуйте.

И. Сетхи

Спасибо за Ваш ответ. Но тот факт, что limma (и другие методы, основанные на подсчете) не учитывают различия транскриптов, является ограничением (например: если транскрипт 1 гена А имеет 20 прочтений в состоянии A, а транскрипт 2 гена А имеет 20 прочтений в состоянии B, он не будет найти транскрипты 1 и 2 как дифференциально экспрессированные ... тогда как в зависимости от гена это может быть биологически релевантным.) Вот почему я не решаюсь использовать эти методы для моего анализа.

Анкур Чакраварти

Вы все равно столкнетесь с подобными проблемами, если будете сравнивать ортологи только по кратным изменениям - единственный способ обойти это - получить подсчеты, специфичные для экзонов, и в этом случае limma имеет функцию diffsplice для проверки дифференциального сплайсинга. или вы можете использовать RSEM для оценки количества сопоставимых изоформ в ваших организмах, а затем вместо количества генов использовать количество изоформ.

Дифференциальный анализ экспрессии генов между видами

И. Сетхи

МэттДмо

Ответы (1)

Анкур Чакраварти

И. Сетхи

Анкур Чакраварти

И. Сетхи

Анкур Чакраварти

Какую информацию можно извлечь из данных РНК-секвенирования во времени?

Несколько транскриптов, совпадающих с одним и тем же геном в de novo, собрали данные секвенирования РНК, но значения FPKM различаются?

Где найти данные об экспрессии генов E.coli?

Использование секвенирования РНК для сравнения экспрессии генов у пациентов, а не между контрольными и экспериментальными условиями.

Каков наиболее подходящий способ нормализации данных об экспрессии генов?

О какой закономерности можно узнать из данных подсчета последовательностей РНК и матрицы HiC? [закрыто]

Инструменты для анализа данных секвенирования РНК

Объединение данных об экспрессии генов двух видов

Как преобразовать формат файла FASTQ в формат файла GTF?

Как подтвердить регуляторные взаимодействия, выведенные из данных об экспрессии генов?