В настоящее время у меня есть два набора данных экспрессии генов. Первый представляет собой кадр данных генов, идентифицированных номерами Annotation id CG (например, «CG10005») в одном столбце, и представляющей интерес числовой переменной, связанной с каждым из этих генов, в другом (важной частью является то, что гены идентифицируются номерами CG). номер КГ). Второй набор данных — это исследование нескольких видов, где гены идентифицируются идентификаторами «GLEANR», такими как этот: «dsim_GLEANR_10060».
Я хотел бы извлечь все значения из этого исследования для данных D.melanogaster и D.simulans, а затем связать их с идентификаторами аннотаций в первом наборе данных (чтобы связать интересующую меня переменную с предвзятостью по полу в выражении для каждого вида). ). Проблема, с которой я столкнулся, заключается в том, чтобы соединить ортологичные гены во втором исследовании друг с другом, а затем соединить их с идентификаторами CG в первом исследовании.
Есть ли у кого-нибудь предложения по ресурсам, которые можно использовать, чтобы все это соединить?
Это страница FlyBase для примера гена: Dsim\GD10095 . Там у вас есть раздел «ортологи», ссылающийся на OrthoDB . Итак, мое предложение: Найдите список синонимов для D. simulans на FlyBase ( может быть, здесь? ), загрузите раздел Drosophila OrthoDB и, наконец, найдите ортологи 1:1.
Вы также можете использовать биомарт для этих целей.
Нажмите на вкладку «ID Converter» в разделе «Инструменты» (слева).
рг255
Майкл Кун
рг255