Определение разумного порога для изменения количества копий в наборе данных TCGA CNV (массив SNP)

Существует ли методология для выбора разумного порога вариации количества копий в наборе данных TCGA CNV (массив SNP), чтобы определить, когда происходит значимое изменение?

Могу ли я загрузить данные CNV для обычных выборок и взять 95-й процентиль распределения? Есть ли лучшие методы?

Обновлять

Это график процентилей двух распределений (опухоль против нормы) значений для одной и той же технологии (массив SNP) и одного и того же генома (hg19).

Распределение опухоли имеет несколько более экстремальные значения, хотя, на мой взгляд, этого недостаточно. По этой причине я думаю, что мне не следует использовать процентильную оценку (например, 5-й и 95-й процентили нормального распределения образцов) для определения пороговых значений для выявления изменений CNV в образцах опухоли.

распределения

Ответы (2)

Предлагаемый вами подход к сравнению с базовым распределением по точкам неплох, хотя он будет восприимчив к небольшим ложным срабатываниям из-за шума. Вы, вероятно, захотите использовать только события, которые охватывают определенное минимальное количество последовательных наблюдений.

Вы также можете изучить круговую бинарную сегментацию, как описано здесь: http://www.ncbi.nlm.nih.gov/pubmed/15475419 .

Я обновил свой вопрос, не могли бы вы взглянуть на него и сообщить мне, что вы думаете?
Хм, ладно, кажется, я вижу. Нет, вы не хотите сравнивать интенсивность опухоли в какой-либо одной позиции с 5-95%-ным распределением нормы по всему массиву. Вы хотите сравнить интенсивность опухоли в одном месте с нормой в этом месте . Это нормализует различия в связывании, специфичные для последовательности.

Существует множество методов анализа CNV. Если вы являетесь пользователем R , я бы порекомендовал вам взглянуть на список пакетов Bioconductor , в частности, на раздел , посвященный изменению номера копии . В настоящее время он содержит 50 пакетов!