Вы можете сказать, что я биоинформатик-любитель или пытаюсь им стать. У меня есть файл BAM, из которого мне удалось с помощью UGENE извлечь согласованные данные в формате FASTA. Теперь я вижу одну серию нуклеотидов и их дополнения для каждой хромосомы. Чего я не вижу, так это двух соответствующих последовательностей. Данные SNP (например, SNPedia ) цитируют (если я правильно понимаю) SNP в одном и том же месте на каждой хромосоме в паре. Я не знаю, как определить мою вариацию, так как я вижу только один нуклеотид в любом заданном месте, а не пару.
Почти уверен, что мне не хватает чего-то фундаментального здесь. Спасибо за любую помощь в навигации по этим джунглям!
Если вы ищете простые одноразовые запросы, может быть лучше загрузить файл BAM и соответствующий эталонный геном в браузер, такой как IGV, и просто перейти к этой конкретной позиции.
По некоторым данным, которые у меня были, гетерозиготный SNP выглядел бы так, как показано на рисунке ниже, там были SNP от A до G и от C до T:
Более длинные списки запросов я бы посмотрел на BEDtools: https://bedtools.readthedocs.org/en/latest/content/bedtools-suite.html .
Если это вам не поможет, рекомендую задать свой вопрос на https://www.biostars.org/ Там вам помогут настоящие биоинформатики.
Я бы не стал ожидать, что регионы гетерозиготности будут очевидны из консенсуса fasta. Я бы посмотрел, если вы знаете какие-нибудь потенциальные сайты, или прогнали бы свой .bam через что-то, что вызовет SNP.
тердон
Марк