Почему только гетерогенные SNV для проверки с использованием массивов генотипирования?

Я пытаюсь проверить варианты, которые я нашел, используя секвенирование всего генома. Стандартная практика, которую я видел в двух публикациях ниже, заключалась в проверке количества гетерозиготных SNP, называемых набором SNP.

1) Сравнение производительности платформ полногеномного секвенирования

Чтобы дополнительно оценить точность вариантов вызова, ... Из 260 112 гетерозиготных вызовов, обнаруженных с помощью массива Omni, 99,5% присутствовали во всем наборе данных SNV, 99,34% были согласованными вызовами и только 0,16% были специфичными для платформы SNV. Это показывает, что обе платформы чувствительны к известным SNV и что несколько известных однонуклеотидных полиморфизмов (SNP) обнаруживаются только одной платформой.

2) Оптимизированная фильтрация снижает частоту ошибок при обнаружении геномных вариантов с помощью секвенирования с коротким считыванием.

Чтобы подтвердить, что общие SNV действительно являются истинными вариантами, мы использовали массивы однонуклеотидного полиморфизма (SNP) Illumina и выбрали все гетерозиготные SNP в массиве SNP.

У меня вопрос: почему при использовании массивов Illumina Omni для проверки выбираются только гетерозиготные SNP?

Ответы (2)

Цель проверки состоит в том, чтобы найти подлинные SNP, а не вызванные ошибками секвенирования или амплификации. Крайне маловероятно, что в результате ошибки вы получите ложный гомозиготный SNP. Просто подумай об этом. Одна и та же ошибка на той же базе, возникающая в 80%+ случаев? Этого не произойдет, если у вас низкий охват, и эти SNP в любом случае следует выбрасывать. У вас могут быть случаи, когда настоящий гетерозиготный SNP называется гомозиготным SNP. Но это не большая проблема. Это по-прежнему настоящий SNP. Это было бы проблемой только в том случае, если бы вас интересовали только гомозиготные SNP, и в этом случае вам просто нужно было бы подтвердить все биохимически, что вам нужно будет сделать в любом случае.

я думаю, что вероятность того, что платформа секвенирования назовет что-то A/A, когда микрочип называет это B/B, практически равна нулю. Просто не бывает.