Это может быть очень основной вопрос для многих здесь. При базовом понимании наследования, даже несмотря на то, что существует возможность множественных генотипов из-за множественных аллелей, результирующий генотип может иметь только два аллеля (отцовский и материнский), таким образом, после вызова варианта аллель в одном положении может быть гомозиготным или гетерозиготным. Таким образом, может быть максимум два аллеля, но почему мы видим несколько аллелей в данной позиции в VCF. Я пытаюсь понять науку, стоящую за этим. Пожалуйста, помогите. Спасибо!
chr5 127640782 . AG A,AA . . . GT:AD:DP 1/2:0,28,409:437
В вашем примере 4-й столбец содержит эталонный аллель в данной позиции. Не сказано, что в вашем образце это есть. 5-й столбец содержит все альтернативные аллели, найденные в данной позиции.
Какие аллели присутствуют в вашем образце, указано в последнем столбце 1/2
. Это означает, что у вас есть один аллель с первым значением в 5-м столбце и один аллель со вторым значением, указанным в 5-м столбце. Вы видите, что в вашем образце есть ровно аллели, но ни один из них не является эталонным. На это будет указывать a 0
.
Vcf может содержать несколько столбцов, представляющих данные об аллелях для нескольких образцов. Я также не вижу причин, по которым вы не могли бы представить данные образца тетраплоида в vcf. Можно также иметь смесь организмов в одном образце, например, смешанную популяцию бактерий. Если бы вы могли заставить своего вызывающего SNP вызывать триаллельный SNP, формат vcf справился бы с этим.
Другая возможность, которую я могу себе представить, заключается в том, что формат предназначен для учета неоднородности между отдельными ячейками в образце и неизбежных ошибок секвенирования.
Если вы секвенируете образец из организма, который (в основном) имеет два аллеля в локусе (например, A и G), все еще могут быть отдельные клетки, которые имеют C или T в этом локусе, а также могут быть ошибки секвенирования, приводящие к C или T в чтениях, которые на самом деле были A или G. Тогда формат VCF все еще мог бы представлять вызовы с низкой вероятностью в дополнение к вызовам с более высокой вероятностью.
Реми.б
multiple alleles at a given position in VCF.
? Может быть, вы могли бы показать отрывок из файла VCF, чтобы показать нам, что вы имеете в виду. Вас удивляет, что в популяции может быть более 2-х аллелей на данном сайте?