Выяснение, имеют ли популяции из двух регионов одинаковые гаплотипы неандертальцев

Я собираюсь предварить этот пост тем, что я не уверен, подходит ли он сюда, но, учитывая, что он был проигнорирован везде, где я пробовал, я подумал, что стоит попробовать. Я аспирант, который все еще относительно новичок в биоинформатике и в настоящее время совершенно и полностью потерян.

Я изучаю происхождение неандертальцев в современных популяциях из двух разных регионов мира. Эти два региона имеют относительно схожие уровни неандертальского происхождения, и они не так уж далеко друг от друга. У меня есть данные SNP из массива генотипирования Affymetrix (данные в формате Plink) для этих популяций, а также для соответствующих участков геномов неандертальцев и денисовцев.

Используя данные SNP, мне нужно попытаться выяснить, есть ли у них неандертальские гаплотипы в тех же частях их генома. Я нашел карту предполагаемых интрогрессивных гаплотипов неандертальцев из геномов Европы и Восточной Азии проекта 1000 геномов ( http://akeylab.gs.washington.edu/Vernot_2014/all_haplotypes_populations.bed.files.tgz ).

Я пытаюсь выяснить, где люди из каждого региона имеют неандертальские гаплотипы и как они различаются между регионами. Есть ли у кого-нибудь руководство о том, как я могу действовать?

Ответы (1)

То, что я говорю здесь, это то, как я бы подошел к проблеме. И поэтому этот пост предназначен для того, чтобы дать вам некоторое направление. Пожалуйста, не возлагайте на меня ответственность, если вы не получите ожидаемых результатов.

Во-первых, я не знаю, как работает формат Plink, вы бы преуспели, если бы можно было каким-то образом преобразовать его в файл BED/GFF/GTF.

Я посмотрел формат файла, и большинство ваших столбцов — это показатели значимости. Для начала я бы использовал BH FDR и p-значение в качестве предварительного фильтра, а позже использовал скорректированное Бонферрони p-значение.

Вики-ссылка на Рузвельта

Ссылка на вики также должна дать вам представление о том, почему я говорю позже перейти на bonferroni.

Интересные вопросы, заданные на перекрестной проверке для FDR


  1. Дает смутное представление о Рузвельте.
  2. Обеспечивает связь между p-значением и FDR : перечитайте ответ несколько раз, и вы его получите.
  3. Прочтите книги, если хотите немного разобраться в статистике.

Используя данные SNP, мне нужно попытаться выяснить, есть ли у них неандертальские гаплотипы в тех же частях их генома. Я нашел карту предполагаемых интрогрессивных гаплотипов неандертальца из геномов Европы и Восточной Азии проекта 1000 геномов.

Я посмотрел файл, это регионы со средним размером 73,4 КБ по всему геному. Итак, что вы хотите сделать, это сопоставить «статистически значимые» SNP из вашего plink-файла с этими регионами.

Если вы не знаете, как, проверьте браузер генома UCSC . Подробный пошаговый ответ был бы слишком большим, но обзор выглядит примерно так:

  1. Выберите свой эталонный геном из сборки
  2. Создайте две пользовательские дорожки, сюда вы можете загрузить свои данные SNP в формате кровати, который сделать проще всего. Ссылка на формат И добавить существующий файл гаплотипа населения.bed.
  3. Перейти к пересечению, чтобы создать пересечение между этими двумя дорожками.

Это даст вам представление о том, какие из ваших регионов гаплотипов присутствуют в популяции.

Конечно, это не так просто, потому что здесь нужно учитывать. Вы хотите сказать, что популяция является носителем этого гаплотипа, если один SNP присутствует в регионе, охватывающем 73 т.п.н.? Это больше, чем средний размер гена у человека.

Что касается геномов неандертальцев и денисовцев. Я бы снова указал вам на браузер генома UCSC, где у них есть сборки неандертальцев и денисовцев и их соответствующие варианты, сопоставленные с геномом человека (сборка hg19). Вы можете снова получить эти файлы и посмотреть, где находятся неандертальские/денисовские варианты в файле гаплотипов, используя тот же подход. Наконец, вы можете затем использовать эти два совпадения, чтобы найти, где ваши варианты были нанесены на карту, и были ли какие-либо древние варианты нанесены на карту в том же регионе. Вы также должны учитывать вставки и удаления в геноме, поэтому варианты могут не отображаться в одном и том же месте, но они будут отображаться рядом.

ОБНОВИТЬ


Вы можете проверить эту ссылку для получения частот аллелей из 1000 геномов для перекрывающихся вариантов. Я никогда не имел в виду, что вы будете использовать постельные файлы для поиска частот аллелей. То, что я изложил, это;

  1. Используйте регионы популяции гаплотипов в качестве шаблона и наложите на него свои значимые аффи-варианты SNP.
  2. Далее, поскольку варианты неандертальца и денисовца сопоставляются со сборкой hg19 или hg18, вы сопоставляете эти варианты с теми же регионами.
  3. Найдите области, где аффи SNP и древний SNP точно перекрываются

Насколько я понимаю из вашего комментария, вы уже сделали первый шаг. И вы хотите знать частоты аллелей для конкретного древнего варианта. Вам нужно выполнить шаги 2 и 3, прежде чем перейти к частотам аллелей.

Затем вы можете найти частоту аллелей вариантов, которые точно отображались в позиции, в которой был древний вариант, в файлах vcf 1K генома.

вы можете сделать это с помощью awk .... есть много руководств по stackoverflow по обработке awk ... и вы также можете найти awk в Google
Проверьте обновления