почему и как сообщается о множественных аллелях во время вызова вариантов в vcf?

Это может быть очень основной вопрос для многих здесь. При базовом понимании наследования, даже несмотря на то, что существует возможность множественных генотипов из-за множественных аллелей, результирующий генотип может иметь только два аллеля (отцовский и материнский), таким образом, после вызова варианта аллель в одном положении может быть гомозиготным или гетерозиготным. Таким образом, может быть максимум два аллеля, но почему мы видим несколько аллелей в данной позиции в VCF. Я пытаюсь понять науку, стоящую за этим. Пожалуйста, помогите. Спасибо!

chr5    127640782   .   AG  A,AA    .   .   .   GT:AD:DP    1/2:0,28,409:437
Не могли бы вы уточнить, что вы имеете в виду multiple alleles at a given position in VCF.? Может быть, вы могли бы показать отрывок из файла VCF, чтобы показать нам, что вы имеете в виду. Вас удивляет, что в популяции может быть более 2-х аллелей на данном сайте?

Ответы (3)

В вашем примере 4-й столбец содержит эталонный аллель в данной позиции. Не сказано, что в вашем образце это есть. 5-й столбец содержит все альтернативные аллели, найденные в данной позиции.

Какие аллели присутствуют в вашем образце, указано в последнем столбце 1/2. Это означает, что у вас есть один аллель с первым значением в 5-м столбце и один аллель со вторым значением, указанным в 5-м столбце. Вы видите, что в вашем образце есть ровно аллели, но ни один из них не является эталонным. На это будет указывать a 0.

Vcf может содержать несколько столбцов, представляющих данные об аллелях для нескольких образцов. Я также не вижу причин, по которым вы не могли бы представить данные образца тетраплоида в vcf. Можно также иметь смесь организмов в одном образце, например, смешанную популяцию бактерий. Если бы вы могли заставить своего вызывающего SNP вызывать триаллельный SNP, формат vcf справился бы с этим.

Другая возможность, которую я могу себе представить, заключается в том, что формат предназначен для учета неоднородности между отдельными ячейками в образце и неизбежных ошибок секвенирования.

Если вы секвенируете образец из организма, который (в основном) имеет два аллеля в локусе (например, A и G), все еще могут быть отдельные клетки, которые имеют C или T в этом локусе, а также могут быть ошибки секвенирования, приводящие к C или T в чтениях, которые на самом деле были A или G. Тогда формат VCF все еще мог бы представлять вызовы с низкой вероятностью в дополнение к вызовам с более высокой вероятностью.