Как сопоставить имя гена с его символом гена?

В последнее время я изучаю данные Gene, поэтому заранее извиняюсь за глупые вопросы. Я читал статью о раке человека, в которой были обнаружены некоторые важные гены. Например, в документе один из генов указан в названии как

gene1:    chromosome 12 open reading frame 52

Могу ли я узнать, как я могу найти соответствующий символ гена как

C12orf52

Есть ли таблица сопоставления или инструмент, который я могу использовать?

Большое спасибо,

Какие виды вас интересуют?

Ответы (3)

К сожалению, картирование названий белков и генов — одна из самых надоедливых проблем современной вычислительной биологии. Нет надежного способа сделать это. Особенно из-за безнадежных названий генов, подобных тому, которое вы цитируете в статье. Вот несколько сервисов, которые вы можете попробовать:

  1. Общий, текстовый поиск, полезен, если у вас есть описание гена (как в случае, описанном в вашем вопросе):

  2. Картографические серверы, полезны, если у вас есть реальный символ/имя гена/белка (например, P53_HUMAN, AF240684, NP_001119585 и т. д.)

«одна из величайших проблем» — эээ.
@KonradRudolph, ты не согласен? Поверьте мне, это так. Я имею в виду проблему не в смысле научной проблемы, а в смысле технической. Каждая база данных часто использует свои идентификаторы, идентификаторы со временем меняются, как и последовательность исправления ошибок. Для списка ~15000 белков (UniProt), с которыми я работаю, в среднем 1-2 идентификатора меняются В НЕДЕЛЮ. Правильное сопоставление имен между различными базами данных и другими источниками информации, которые я использую, было большой головной болью моего Post-Doc.
Ну, я согласен, что это неприятно, но у нас есть стабильные идентификаторы (= не меняются) и сервисы для перевода между разными. Это решенная проблема (в том смысле, что она может по-прежнему требовать ручной работы, но не интеллектуальной работы).
@Konrad, к сожалению, стабильные идентификаторы хороши только в том случае, если они используются вашими входными данными. Если вам нужно объединить данные о взаимодействиях из 15 баз данных, каждая из которых использует свою схему идентификаторов (RefSeq, GI, UniProt, HUGO, Flybase, Wormbase и т. д.), идентификаторы становятся настоящей проблемой. Службы перевода часто глючат (UniProt, например, не создавал уникальные идентификаторы для каждой отправки задания и возвращал мои запросы, смешанные с чьими-то еще!), ограничены определенными видами или типами идентификаторов. Возможно, это действительно не интеллектуальная проблема, но вполне реальная техническая.

Если в первоисточнике использовалась официальная человеческая номенклатура, вы можете выполнить поиск на сайте HGNC (Комитет по номенклатуре генов HUGO) .

Просто используйте базу данных генома, такую ​​как Ensembl . Вставьте имя своего гена в поле поиска и нажмите «Перейти» . Первое совпадение в списке результатов — это то, что вы ищете.

Это сработало. Но я все еще настраиваю, как вводить список имен генов не только по одному.