Существует ли методология для выбора разумного порога вариации количества копий в наборе данных TCGA CNV (массив SNP), чтобы определить, когда происходит значимое изменение?
Могу ли я загрузить данные CNV для обычных выборок и взять 95-й процентиль распределения? Есть ли лучшие методы?
Это график процентилей двух распределений (опухоль против нормы) значений для одной и той же технологии (массив SNP) и одного и того же генома (hg19).
Распределение опухоли имеет несколько более экстремальные значения, хотя, на мой взгляд, этого недостаточно. По этой причине я думаю, что мне не следует использовать процентильную оценку (например, 5-й и 95-й процентили нормального распределения образцов) для определения пороговых значений для выявления изменений CNV в образцах опухоли.
Предлагаемый вами подход к сравнению с базовым распределением по точкам неплох, хотя он будет восприимчив к небольшим ложным срабатываниям из-за шума. Вы, вероятно, захотите использовать только события, которые охватывают определенное минимальное количество последовательных наблюдений.
Вы также можете изучить круговую бинарную сегментацию, как описано здесь: http://www.ncbi.nlm.nih.gov/pubmed/15475419 .
Существует множество методов анализа CNV. Если вы являетесь пользователем R , я бы порекомендовал вам взглянуть на список пакетов Bioconductor , в частности, на раздел , посвященный изменению номера копии . В настоящее время он содержит 50 пакетов!
gc5
Транскриптаза