Как найти соответствующие SNP в паре хромосом в файле FASTA?

Вы можете сказать, что я биоинформатик-любитель или пытаюсь им стать. У меня есть файл BAM, из которого мне удалось с помощью UGENE извлечь согласованные данные в формате FASTA. Теперь я вижу одну серию нуклеотидов и их дополнения для каждой хромосомы. Чего я не вижу, так это двух соответствующих последовательностей. Данные SNP (например, SNPedia ) цитируют (если я правильно понимаю) SNP в одном и том же месте на каждой хромосоме в паре. Я не знаю, как определить мою вариацию, так как я вижу только один нуклеотид в любом заданном месте, а не пару.

Почти уверен, что мне не хватает чего-то фундаментального здесь. Спасибо за любую помощь в навигации по этим джунглям!

«Две соответствующие последовательности»: соответствующие чему? Какие данные SNP? Какой SNP должен быть на обеих хромосомах? Ссылка, которую вы дали, похоже, относится к SNP, который может быть гетеро- или гомозиготным. Почему вы предполагаете, что он гомозиготен в ваших данных? Каковы ваши данные? Пожалуйста, отредактируйте свой вопрос и уточните, очень трудно понять, что вы спрашиваете в данный момент.
Извините, если я плохо выражаюсь... Я новичок во всем этом. По сути, я говорю о том, что я должен ожидать в случае гетерозиготного SNP. Вопрос заключается в следующем: если конкретный геном, который я изучаю, имеет гетерозиготный SNP в каком-то месте, скажем, (C;T), то как/где я могу ожидать увидеть это в своих данных? Консенсус отражает более распространенное чтение на этом сайте, но в этом случае я ожидаю, что около 50% прочтений будут C, а 50% T... так что консенсус бесполезен. Я ошибаюсь?

Ответы (2)

Если вы ищете простые одноразовые запросы, может быть лучше загрузить файл BAM и соответствующий эталонный геном в браузер, такой как IGV, и просто перейти к этой конкретной позиции.

По некоторым данным, которые у меня были, гетерозиготный SNP выглядел бы так, как показано на рисунке ниже, там были SNP от A до G и от C до T:

Более длинные списки запросов я бы посмотрел на BEDtools: https://bedtools.readthedocs.org/en/latest/content/bedtools-suite.html .

Если это вам не поможет, рекомендую задать свой вопрос на https://www.biostars.org/ Там вам помогут настоящие биоинформатики.

введите описание изображения здесь

Итак, я просматривал файл BAM, но мне еще не удалось найти ни одного экземпляра сайта, где бы я видел 50/50 прочтений двух нуклеотидов (например, 50% C и 50% T). Это то, что я должен ожидать найти в случае гетерозиготного генотипа SNP? Если да, то должен ли я просто игнорировать консенсус и просто посмотреть на файл BAM? Я просто хотел бы подтвердить, что я на правильном пути здесь...
Я скорректировал ответ, включив изображение. Надеюсь теперь все более понятно

Я бы не стал ожидать, что регионы гетерозиготности будут очевидны из консенсуса fasta. Я бы посмотрел, если вы знаете какие-нибудь потенциальные сайты, или прогнали бы свой .bam через что-то, что вызовет SNP.