Паралогичные гены в полногеномных ассоциативных исследованиях?

Кто-нибудь проверял, не преобладают ли паралогичные гены среди генов, идентифицированных полногеномными ассоциативными исследованиями (GWAS)?

Например, если исследование GWAS обнаруживает 200 генов, связанных с болезнью/признаком, и число X из них может быть классифицировано как принадлежащее к Y различным семействам генов, существует ли тест, чтобы увидеть, больше ли X и Y, чем ожидалось, учитывая общее количество генов и генных паралогий в геноме? Здесь я говорю о давно установившихся копиях внутри вида, а не о CNV у разных особей одного и того же вида.

Я думаю, что за этим стоит интересный вопрос: если ген продублировался в ходе эволюции генома, и разные копии гена взяли на себя специализированные, но связанные роли, беспристрастный анализ, такой как GWAS, должен быть в состоянии найти случаи, когда разные паралогические копии связаны с различными подзаболеваниями/субпризнаками в рамках одного и того же глобального заболевания/признака.

Привет. Не могли бы вы помочь, разъяснив свой вопрос? Вы хотите знать, представлены ли паралогичные гены/регионы в хитах GWAS? Это интересная гипотеза - есть ли у вас какие-либо идеи/ссылки, почему это может быть так? Всегда лучше задать как можно более полный и ясный вопрос. Спасибо
Это интересный вопрос (спасибо за расширение). Если бы паралогичные гены все еще были функционально родственными, между ними, вероятно, существовала бы избыточность, поэтому SNP в одной из копий может вообще не проявляться. SNP, воздействующий на субпризнак, характерный для одной из копий, должен был бы иметь массовый эффект (или для исследования потребовался бы феноменальный размер выборки), чтобы найти его (если только это не было целевым исследованием только паралогичных генов, о которых известно, что они вызывают заболевание ). связанные с?). Я не знаю никаких исследований, но мне будут интересны ответы других!
Рассматривали ли вы точный критерий Фишера (критерий хи-квадрат с более мягкими предположениями)?
Я вообще не понимаю, что такое гипотеза. Во-первых, необходимо контролировать множество искажающих факторов — например, семейства регуляторных генов могут расширяться с большей вероятностью, чем семейства структурных генов, так что вам придется учитывать это (и многое другое). Ваш последний вопрос о субфункционализации, похоже, не имеет ничего общего с первоначальным вопросом о чрезмерном представительстве.
Разве паралоги не должны иметь дивергентную функцию? Я ожидаю, что они будут недостаточно представлены.
Вы также можете проверить это, подсчитав паралоги только в хитах, а затем выбрать, например. 200 случайных генов (в зависимости от того, сколько попаданий поймал ваш GWAS) и учитывайте их.
Я думаю, это зависит от того, насколько связаны паралоги. Если они давно разошлись, то мы можем предположить, что SNP, которые появляются в вашем гипотетическом GWAS, действительно независимо связаны с заболеванием. Однако строго невозможно, чтобы один и тот же SNP встречался в другом гене, это своего рода другой SNP по определению. Поскольку методы GWAS генерируют корреляции, а не причинно-следственные связи, если эти одинаковые, но разные SNP связаны с болезнью, это конец истории. Чтобы узнать больше, требуется более глубокий осмотр.
Это одна из статей, в которой они отделили паралоги от ортологов и провели исследования межбелковых взаимодействий между видами по сохранению. Методы, которые они использовали, могут быть полезны при проведении подобных исследований. ncbi.nlm.nih.gov/pmc/articles/PMC3447968

Ответы (1)

В литературе нет такого отчета. Тем не менее, я провел беглую проверку исследования нейробластомы GWAS .

  • Выбранные SNP с p-значением> 0,05
  • Преобразование p-значений в баллы —
    -log 10 (p-значение)
  • Сопоставление SNP с генами при расчете совокупного балла для гена

Я просто отсортировал гены по их именам, предполагая, что многие паралоги имеют похожие имена. Я знаю, что это неправильный путь. Однако я нашел в списке много групп с похожими именами.

Теперь следующий шаг — найти фактические паралоги и подсчитать совокупный балл для группы паралогов. Это небольшая задача:

  • Получить последовательности генов
  • Запустите поиск BLAST, чтобы найти паралоги
  • Распределите гены по группам и найдите баллы

Могу поделиться файлом с генами и баллами. Однако я бы продолжил, только если кто-то действительно заинтересован в этом — это может быть исследовательская работа.

PS: Если вы хотите файл, просто прокомментируйте свой адрес электронной почты. Какой-то админ-идиот заблокировал rapidshare/4shared и т.д.