Как предсказать влияние некодирующего варианта SNP на экспрессируемый белок?

Я пишу статью о некодирующих SNP у пациентов с метастатическим раком молочной железы. Используя специальную генную панель (NGS) примерно из 60 генов, у меня в настоящее время заканчиваются идеи о том, что написать в разделе обсуждения.

Я ищу предложения, основанные на несколько эффективных методах, таких как подход биоинформатики или специальные учебники, посвященные биологии/биохимии РНК, чтобы предсказать результат некодирующих вариантов SNP.

Некоторые детали:

  • Большинство вариантов являются интронными (~ 2300/3300), поэтому я в основном сосредоточусь на сплайсинге.

  • Есть два часто повторяющихся SNP в 3'-UTR более чем у половины пациентов, включая KRAS и CDKN2A.

Ответы (2)

A) Создайте количество экзонов и транскриптов для ваших образцов, размер библиотеки + квантиль нормализуют данные.
B) Сгруппируйте образцы в категории вариантов/дикого типа C) Используйте критерий суммы рангов Уилкоксона, чтобы увидеть, есть ли различия во включении экзонов или общей экспрессии. Помните, что варианты 3'UTR также могут подразумевать дифференциальную деградацию микроРНК. Такие инструменты, как TargetScan, могут помочь вам с miR-анализом.

Возможно, вам лучше использовать что-то вроде DEXSeq для обнаружения дифференциального использования транскриптов.

Вы можете попробовать DeepSEA . Он использует подход глубокого обучения для прогнозирования функции некодирующих SNV. Они используют ENCODE и Roadmap Epigenomics для изучения структуры хроматина, 1KG для нефункциональных SNV, HGMD для некодирующих регуляторных мутаций, GRASP (полногеномный репозиторий ассоциаций между SNP и фенотипами) для некодирующих eQTL и каталог GWAS Национального института исследований генома человека США для некодирующих признаков. -ассоциированные SNV. В документе « Прогнозирование эффектов некодирующих вариантов с помощью модели последовательности на основе глубокого обучения » описывается весь конвейер.

Я проверял это раньше, но в основном я ищу способ предсказать длину и вероятность (вероятно, и последовательность) отдельных транскриптов, возникающих в результате появления альтернативных сайтов сплайсинга (все еще основанных на машинном обучении). Есть ли у вас какие-либо идеи ?