Дифференциальный анализ экспрессии генов между видами

У меня есть данные секвенирования РНК из кожи мыши и человека (по 2 повторения каждого) и я хочу сравнить экспрессию ортологичных генов, чтобы найти те, которые экспрессируются по-разному. Я квантильно нормализовал матрицу экспрессии генов во всех 4 образцах (2 мыши + 2 человека). В конечном итоге я хочу рассчитать логарифмическое изменение экспрессии всех ортологичных генов между двумя видами. Однако прежде чем я это сделаю, я должен проверить длину гена, верно? Будет ли этого достаточно, чтобы дать мне представление о дифференциально выраженных генах, или мне следует использовать более сложные методы? Любые комментарии будут полезны. Большое спасибо.

Это может лучше подходить для Cross Validated .

Ответы (1)

На самом деле это зависит от того, какой тип данных у вас есть. Существуют методы, разработанные исключительно для количественной оценки относительной экспрессии на основе данных подсчета, например, с использованием edgeR или limma-voom.

Вам не нужно корректировать длину гена, чтобы оценить кратность изменений относительной экспрессии, вам нужно сначала нормализовать размер библиотеки (и в процессе получить log2 ((counts + 0,5)/1e+06), а затем , после нормализации квантилей вы можете просто вычислить мышь-человек или человек-мышь, чтобы получить оценку кратного изменения.

Тем не менее, я бы порекомендовал использовать для этой задачи что-то более сложное, например, limma-voom, потому что это также позволит вам получить такие вещи, как коэффициент ложных открытий для ваших изменений фолда.

У меня есть данные подсчета. Однако причина, по которой я не решаюсь использовать такие пакеты, как edgeR или DESeq2, заключается в том, что они предназначены для сравнения экспрессии одного и того же гена в двух условиях. Я, с другой стороны, хочу сравнить экспрессию ортологичных генов (гены diff с разной длиной) между двумя видами. Кроме того, если я выполняю квантильную нормализацию (т.е. накладываю одно и то же распределение на все образцы), нужно ли мне по-прежнему контролировать размер библиотеки?
Да, это норма контролировать размер библиотеки, а затем нормализовать квантили - вам всегда нужно контролировать количество подсчетов для того, сколько чтений было секвенировано на образец. Ортологи с разной длиной должны быть в порядке - я имею в виду, в любом случае limma-voom, например, оценивает дифференциальную экспрессию на уровне генов без учета изоформ (которые имеют разную длину). Технически ортологи можно рассматривать как варианты одних и тех же генов, так что, возможно, попробуйте.
Спасибо за Ваш ответ. Но тот факт, что limma (и другие методы, основанные на подсчете) не учитывают различия транскриптов, является ограничением (например: если транскрипт 1 гена А имеет 20 прочтений в состоянии A, а транскрипт 2 гена А имеет 20 прочтений в состоянии B, он не будет найти транскрипты 1 и 2 как дифференциально экспрессированные ... тогда как в зависимости от гена это может быть биологически релевантным.) Вот почему я не решаюсь использовать эти методы для моего анализа.
Вы все равно столкнетесь с подобными проблемами, если будете сравнивать ортологи только по кратным изменениям - единственный способ обойти это - получить подсчеты, специфичные для экзонов, и в этом случае limma имеет функцию diffsplice для проверки дифференциального сплайсинга. или вы можете использовать RSEM для оценки количества сопоставимых изоформ в ваших организмах, а затем вместо количества генов использовать количество изоформ.