Я собираюсь предварить этот пост тем, что я не уверен, подходит ли он сюда, но, учитывая, что он был проигнорирован везде, где я пробовал, я подумал, что стоит попробовать. Я аспирант, который все еще относительно новичок в биоинформатике и в настоящее время совершенно и полностью потерян.
Я изучаю происхождение неандертальцев в современных популяциях из двух разных регионов мира. Эти два региона имеют относительно схожие уровни неандертальского происхождения, и они не так уж далеко друг от друга. У меня есть данные SNP из массива генотипирования Affymetrix (данные в формате Plink) для этих популяций, а также для соответствующих участков геномов неандертальцев и денисовцев.
Используя данные SNP, мне нужно попытаться выяснить, есть ли у них неандертальские гаплотипы в тех же частях их генома. Я нашел карту предполагаемых интрогрессивных гаплотипов неандертальцев из геномов Европы и Восточной Азии проекта 1000 геномов ( http://akeylab.gs.washington.edu/Vernot_2014/all_haplotypes_populations.bed.files.tgz ).
Я пытаюсь выяснить, где люди из каждого региона имеют неандертальские гаплотипы и как они различаются между регионами. Есть ли у кого-нибудь руководство о том, как я могу действовать?
То, что я говорю здесь, это то, как я бы подошел к проблеме. И поэтому этот пост предназначен для того, чтобы дать вам некоторое направление. Пожалуйста, не возлагайте на меня ответственность, если вы не получите ожидаемых результатов.
Во-первых, я не знаю, как работает формат Plink, вы бы преуспели, если бы можно было каким-то образом преобразовать его в файл BED/GFF/GTF.
Я посмотрел формат файла, и большинство ваших столбцов — это показатели значимости. Для начала я бы использовал BH FDR и p-значение в качестве предварительного фильтра, а позже использовал скорректированное Бонферрони p-значение.
Ссылка на вики также должна дать вам представление о том, почему я говорю позже перейти на bonferroni.
Используя данные SNP, мне нужно попытаться выяснить, есть ли у них неандертальские гаплотипы в тех же частях их генома. Я нашел карту предполагаемых интрогрессивных гаплотипов неандертальца из геномов Европы и Восточной Азии проекта 1000 геномов.
Я посмотрел файл, это регионы со средним размером 73,4 КБ по всему геному. Итак, что вы хотите сделать, это сопоставить «статистически значимые» SNP из вашего plink-файла с этими регионами.
Если вы не знаете, как, проверьте браузер генома UCSC . Подробный пошаговый ответ был бы слишком большим, но обзор выглядит примерно так:
Это даст вам представление о том, какие из ваших регионов гаплотипов присутствуют в популяции.
Конечно, это не так просто, потому что здесь нужно учитывать. Вы хотите сказать, что популяция является носителем этого гаплотипа, если один SNP присутствует в регионе, охватывающем 73 т.п.н.? Это больше, чем средний размер гена у человека.
Что касается геномов неандертальцев и денисовцев. Я бы снова указал вам на браузер генома UCSC, где у них есть сборки неандертальцев и денисовцев и их соответствующие варианты, сопоставленные с геномом человека (сборка hg19). Вы можете снова получить эти файлы и посмотреть, где находятся неандертальские/денисовские варианты в файле гаплотипов, используя тот же подход. Наконец, вы можете затем использовать эти два совпадения, чтобы найти, где ваши варианты были нанесены на карту, и были ли какие-либо древние варианты нанесены на карту в том же регионе. Вы также должны учитывать вставки и удаления в геноме, поэтому варианты могут не отображаться в одном и том же месте, но они будут отображаться рядом.
ОБНОВИТЬ
Вы можете проверить эту ссылку для получения частот аллелей из 1000 геномов для перекрывающихся вариантов. Я никогда не имел в виду, что вы будете использовать постельные файлы для поиска частот аллелей. То, что я изложил, это;
Насколько я понимаю из вашего комментария, вы уже сделали первый шаг. И вы хотите знать частоты аллелей для конкретного древнего варианта. Вам нужно выполнить шаги 2 и 3, прежде чем перейти к частотам аллелей.
Затем вы можете найти частоту аллелей вариантов, которые точно отображались в позиции, в которой был древний вариант, в файлах vcf 1K генома.
СложенныйХроматин
СложенныйХроматин