Так что я очень новичок в области биологии, поэтому извините, если это глупый вопрос.
У меня есть данные RNA-Seq, полученные в течение 100 дней, и у меня есть данные об экспрессии генов в следующем формате. Каждое значение выражения является средним из 3 повторов.
Day 1 Day 10 Day50 Day 100
Gene 1 12 42 35 12
Gene 2 50 53 23 100
. . . . .
. . . . .
. . . . .
и так далее, приведенные выше данные - это то, что я придумал, но не могли бы вы сказать мне, какую информацию я могу извлечь из данных этого типа? Например, дифференциальная экспрессия генов. Большое спасибо
Это может быть сложно, потому что данные секвенирования РНК рассматривают экспрессию генов в форме мРНК. Но есть тысячи генов домашнего хозяйства, которые экспрессируются постоянно, пока жив организм. Таким образом, действительно интересные гены с течением времени — это те гены, которые экспрессируются по-разному. Итак, ген 1 в вашем примере не так уж и интересен. Ген 2, однако, обеспечивает 4-кратное увеличение между 50-м и 100-м днями. Тем не менее, это не так уж и много. Вам нужны компьютерные программы, чтобы разобраться во всем этом. Но что вам нужно, так это иметь возможность ассоциировать огромные изменения в мРНК (экспрессии генов), которые можно отличить от фона.
Я никогда не видел, чтобы люди извлекали данные из данных, может быть, вы имели в виду, какой тип информации вы хотели бы извлечь, и ответ «гены по-разному выражены». Вы должны проверить, нормализованы ли ваши данные или нет. Если это так, вы можете использовать популярный пакет R, такой как DEseq2 или Limma, для обнаружения дифференциально выраженных генов. В случае, если ваши данные не нормализованы, у этих инструментов есть правильный способ нормализовать вашу матрицу.
Вот ссылка лиммы: https://www.bioconductor.org/packages/devel/bioc/vignettes/limma/inst/doc/usersguide.pdf
на стр. 46 у вас есть пример того, как обращаться с анализом динамики времени
Бли