Выяснение, имеют ли популяции из двух регионов одинаковые гаплотипы неандертальцев

Question

Выяснение, имеют ли популяции из двух регионов одинаковые гаплотипы неандертальцев

пользователь15992

Я собираюсь предварить этот пост тем, что я не уверен, подходит ли он сюда, но, учитывая, что он был проигнорирован везде, где я пробовал, я подумал, что стоит попробовать. Я аспирант, который все еще относительно новичок в биоинформатике и в настоящее время совершенно и полностью потерян.

Я изучаю происхождение неандертальцев в современных популяциях из двух разных регионов мира. Эти два региона имеют относительно схожие уровни неандертальского происхождения, и они не так уж далеко друг от друга. У меня есть данные SNP из массива генотипирования Affymetrix (данные в формате Plink) для этих популяций, а также для соответствующих участков геномов неандертальцев и денисовцев.

Используя данные SNP, мне нужно попытаться выяснить, есть ли у них неандертальские гаплотипы в тех же частях их генома. Я нашел карту предполагаемых интрогрессивных гаплотипов неандертальцев из геномов Европы и Восточной Азии проекта 1000 геномов ( http://akeylab.gs.washington.edu/Vernot_2014/all_haplotypes_populations.bed.files.tgz ).

Я пытаюсь выяснить, где люди из каждого региона имеют неандертальские гаплотипы и как они различаются между регионами. Есть ли у кого-нибудь руководство о том, как я могу действовать?

Ответы (1)

Выяснение, имеют ли популяции из двух регионов одинаковые гаплотипы неандертальцев

СложенныйХроматин · Answer 1

То, что я говорю здесь, это то, как я бы подошел к проблеме. И поэтому этот пост предназначен для того, чтобы дать вам некоторое направление. Пожалуйста, не возлагайте на меня ответственность, если вы не получите ожидаемых результатов.

Во-первых, я не знаю, как работает формат Plink, вы бы преуспели, если бы можно было каким-то образом преобразовать его в файл BED/GFF/GTF.

Я посмотрел формат файла, и большинство ваших столбцов — это показатели значимости. Для начала я бы использовал BH FDR и p-значение в качестве предварительного фильтра, а позже использовал скорректированное Бонферрони p-значение.

Вики-ссылка на Рузвельта

Ссылка на вики также должна дать вам представление о том, почему я говорю позже перейти на bonferroni.

Интересные вопросы, заданные на перекрестной проверке для FDR

Дает смутное представление о Рузвельте.
Обеспечивает связь между p-значением и FDR : перечитайте ответ несколько раз, и вы его получите.
Прочтите книги, если хотите немного разобраться в статистике.

Используя данные SNP, мне нужно попытаться выяснить, есть ли у них неандертальские гаплотипы в тех же частях их генома. Я нашел карту предполагаемых интрогрессивных гаплотипов неандертальца из геномов Европы и Восточной Азии проекта 1000 геномов.

Я посмотрел файл, это регионы со средним размером 73,4 КБ по всему геному. Итак, что вы хотите сделать, это сопоставить «статистически значимые» SNP из вашего plink-файла с этими регионами.

Если вы не знаете, как, проверьте браузер генома UCSC . Подробный пошаговый ответ был бы слишком большим, но обзор выглядит примерно так:

Выберите свой эталонный геном из сборки
Создайте две пользовательские дорожки, сюда вы можете загрузить свои данные SNP в формате кровати, который сделать проще всего. Ссылка на формат И добавить существующий файл гаплотипа населения.bed.
Перейти к пересечению, чтобы создать пересечение между этими двумя дорожками.

Это даст вам представление о том, какие из ваших регионов гаплотипов присутствуют в популяции.

Конечно, это не так просто, потому что здесь нужно учитывать. Вы хотите сказать, что популяция является носителем этого гаплотипа, если один SNP присутствует в регионе, охватывающем 73 т.п.н.? Это больше, чем средний размер гена у человека.

Что касается геномов неандертальцев и денисовцев. Я бы снова указал вам на браузер генома UCSC, где у них есть сборки неандертальцев и денисовцев и их соответствующие варианты, сопоставленные с геномом человека (сборка hg19). Вы можете снова получить эти файлы и посмотреть, где находятся неандертальские/денисовские варианты в файле гаплотипов, используя тот же подход. Наконец, вы можете затем использовать эти два совпадения, чтобы найти, где ваши варианты были нанесены на карту, и были ли какие-либо древние варианты нанесены на карту в том же регионе. Вы также должны учитывать вставки и удаления в геноме, поэтому варианты могут не отображаться в одном и том же месте, но они будут отображаться рядом.

ОБНОВИТЬ

Вы можете проверить эту ссылку для получения частот аллелей из 1000 геномов для перекрывающихся вариантов. Я никогда не имел в виду, что вы будете использовать постельные файлы для поиска частот аллелей. То, что я изложил, это;

Используйте регионы популяции гаплотипов в качестве шаблона и наложите на него свои значимые аффи-варианты SNP.
Далее, поскольку варианты неандертальца и денисовца сопоставляются со сборкой hg19 или hg18, вы сопоставляете эти варианты с теми же регионами.
Найдите области, где аффи SNP и древний SNP точно перекрываются

Насколько я понимаю из вашего комментария, вы уже сделали первый шаг. И вы хотите знать частоты аллелей для конкретного древнего варианта. Вам нужно выполнить шаги 2 и 3, прежде чем перейти к частотам аллелей.

Затем вы можете найти частоту аллелей вариантов, которые точно отображались в позиции, в которой был древний вариант, в файлах vcf 1K генома.

вы можете сделать это с помощью awk .... есть много руководств по stackoverflow по обработке awk ... и вы также можете найти awk в Google

Выяснение, имеют ли популяции из двух регионов одинаковые гаплотипы неандертальцев

пользователь15992

Ответы (1)

СложенныйХроматин

Интересные вопросы, заданные на перекрестной проверке для FDR

СложенныйХроматин

СложенныйХроматин

Как часто болезни вызываются более чем одной мутацией гена?

Почему почти все SNP имеют два аллеля?

Общедоступные данные о генотипе?

Объяснение наследственного аллеля

Картирование мутации с известным SNP, 3' UTR, miR

Формат файла GEN, SNP и аллели

Определение и пример варианта гена

Генетическая энтропия [закрыто]

Как работает ген MET и что происходит, когда мутирует промоторная область?

Как объединить данные SNP с эталонным геномом?