Группировка кодов болезней OMIM

У меня ~100 наборов генов, и каждый набор включает от 2 до 70 генов. Я хотел бы выполнить анализ обогащения каждого из этих наборов, чтобы проверить, обогащены ли они ярлыками болезней OMIM . Однако я столкнулся с проблемой, когда коды OMIM слишком «разрежены», так что каждый код OMIM встречается не более одного раза во всех наборах генов. Насколько я могу судить, это делает коды непригодными для анализа обогащения в данном случае.

Я считаю, что группировка кодов OMIM может решить эту проблему, если каждая групповая метка встречается в моих списках несколько раз. Группировка кодов OMIM кажется выполнимой: например, коды OMIM 601495, 613500, 613502 и 613506 относятся к типам агаммаглобулинемии. Я мог бы представить группировку кодов на основе чего-то вроде меток генной онтологии.

Мой вопрос: есть ли стандартный способ группировки кодов OMIM?

Я вижу некоторые документы, делающие что-то подобное, например, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4458913/ , но я новичок в этой области и не знаю, как "стандартные" подходы, такие как это.

Привет и добро пожаловать в Biology.SE. Без четкого научного вопроса здесь недостаточно информации для ответа на вопрос.
Спасибо, что дали мне знать. Я отредактировал свой вопрос, чтобы включить дополнительную информацию. Дайте мне знать, если я могу добавить больше.
Пока сложно точно сказать, как вы хотите их сгруппировать и с какой целью, поэтому я дал общий ответ ниже. Я надеюсь, что это помогает!

Ответы (2)

На основе кодов OMIM ID

В широком смысле NIH уже разделили идентификаторы. Если все, что вы проверяете, — это обогащение кода OMIM, это может быть приемлемым решением, поскольку оно может сообщить вам хромосомный локус (аутосомный, сцепленный с полом или митохондриальный).

Каждой записи OMIM присваивается уникальный шестизначный номер, как показано ниже:

1----- (100000-) 2----- (200000-) Аутосомные локусы или фенотипы (записи, созданные до 15 мая 1994 г.)

3----- (300000-) Х-сцепленные локусы или фенотипы

4----- (400000-) Y-сцепленные локусы или фенотипы

5----- (500000-) Митохондриальные локусы или фенотипы

6----- (600000-) Аутосомные локусы или фенотипы (записи, созданные после 15 мая 1994 г.)

Другие базы данных в качестве альтернативного метода.

Если вас интересуют конкретные фенотипы, вам может потребоваться более активное участие.

Насколько мне известно, OMIM на самом деле не пытается сгруппировать болезни, кроме их номенклатуры ID. Было несколько проектов, которые намеревались сделать это, например, тот, на который указывает вопрос, и примеры ниже. В основном они используют фенотипические данные в сочетании с информацией OMIM.

Две базы данных, которые направлены на решение этой проблемы:

Это инструменты с контролируемым словарем для фенотипов и ассоциаций из кодов OMIM. Они могут помочь вам проверить обогащение по конкретному заболеванию/фенотипу. Это, безусловно, позволит осуществлять программную группировку, хотя я раньше не работал ни с тем, ни с другим, и я предполагаю, что это будет очень сложно!

Тебе решать!

В Википедии есть список кодов OMIM, перечисленных в алфавитном порядке, если вы хотите попытаться сгруппировать их вручную по любым критериям, которые вам нужны.


Без вашего исходного кода трудно сказать, но, возможно, максимум одной частоты возникновения может быть проблемой кода, а не научной проблемой.

Спасибо большое! Это именно то, что я искал. Я пробовал группировать по разным схемам числового кода OMIM (включая использование первой цифры), но не думаю, что это имеет смысл для моего приложения. Я рассмотрю другие базы данных и/или попробую индивидуальное решение.

В документе « Enrichr: интерактивный и совместный инструмент анализа обогащения списка генов HTML5 » есть подход :

Библиотека наборов генов OMIM была создана непосредственно из карты NCBI OMIM Morbid Map. Мы удалили болезни с несколькими генами и объединили болезни с похожими названиями, потому что они, вероятно, состоят из нескольких подтипов одной и той же болезни. Кроме того, поскольку у большинства болезней всего несколько генов, мы использовали наш инструмент Genes2Networks для создания расширенной библиотеки наборов генов OMIM. Мы ввели гены болезни в качестве начального списка и расширили список, идентифицировав белки, которые непосредственно взаимодействуют по крайней мере с двумя продуктами генов болезни; другими словами, мы искали пути, которые соединяют два продукта гена болезни с одним промежуточным белком, в результате чего образовалась подсеть, соединяющая гены болезни с дополнительными белками/генами. Каждая подсеть для каждого заболевания была преобразована в набор генов.

Enrichr имеет две библиотеки OMIM в категориях «Лекарства/болезни». Кроме того, он имеет библиотеку онтологий фенотипов человека и библиотеки фенотипов млекопитающих MGI .