Объединение данных об экспрессии генов двух видов

В настоящее время у меня есть два набора данных экспрессии генов. Первый представляет собой кадр данных генов, идентифицированных номерами Annotation id CG (например, «CG10005») в одном столбце, и представляющей интерес числовой переменной, связанной с каждым из этих генов, в другом (важной частью является то, что гены идентифицируются номерами CG). номер КГ). Второй набор данных — это исследование нескольких видов, где гены идентифицируются идентификаторами «GLEANR», такими как этот: «dsim_GLEANR_10060».

Я хотел бы извлечь все значения из этого исследования для данных D.melanogaster и D.simulans, а затем связать их с идентификаторами аннотаций в первом наборе данных (чтобы связать интересующую меня переменную с предвзятостью по полу в выражении для каждого вида). ). Проблема, с которой я столкнулся, заключается в том, чтобы соединить ортологичные гены во втором исследовании друг с другом, а затем соединить их с идентификаторами CG в первом исследовании.

Есть ли у кого-нибудь предложения по ресурсам, которые можно использовать, чтобы все это соединить?

Ответы (2)

Это страница FlyBase для примера гена: Dsim\GD10095 . Там у вас есть раздел «ортологи», ссылающийся на OrthoDB . Итак, мое предложение: Найдите список синонимов для D. simulans на FlyBase ( может быть, здесь? ), загрузите раздел Drosophila OrthoDB и, наконец, найдите ортологи 1:1.

Спасибо, я смотрю на это сейчас - я предполагаю, что каждый ген имеет уникальный FBgn, и их ортологи идентифицируются по ODB6_OG_ID (?), а виды идентифицируются по DROME, DROSI, DROSE... взяв только эти три переменные, я могу создать кадр данных каждого ODB6_OG_ID в первом столбце и столбцы для каждого вида, дающие его ортологичный идентификатор FBgn для каждого интересующего вида? Но как мне «найти ортологов 1:1»?
Иногда у вас есть дупликация специфического гена штамма, которую вы, вероятно, хотите исключить, чтобы все было просто. Таким образом, вы можете проверить для каждого вида, есть ли более одного гена, связанного с ODB6_OG_ID, и удалить их.
У меня все заработало после старой доброй борьбы с R сегодня - большое спасибо за помощь!

Вы также можете использовать биомарт для этих целей.

Нажмите на вкладку «ID Converter» в разделе «Инструменты» (слева).