Я работаю над проектом, в котором хочу обнаружить гены, вызывающие определенное заболевание, которое у меня может быть. Мне было интересно, заставить ли WGS или WES выполнить этот эксперимент: -
Я просматриваю SNP и CNV своих генов и хочу сравнить свои данные с данными здоровых и больных людей. Для гена я рассчитываю расстояние документа для каждой группы (нормальной и больной), используя этот алгоритм ( https://math.stackexchange.com/questions/1080377/how-close-apart-are-two-message-document-distance- алгоритм ), так как это позволит мне определить, какие гены у меня являются аномальными или «близкими» к тому, чтобы быть классифицированными как аномальные, и какие гены являются нормальными или «близкими» к тому, чтобы их можно было назвать нормальными в соответствии с алгоритмом и данными, полученными из двух групп. .
Для проведения этого эксперимента мне нужно секвенировать мой геном И определить базы данных, которые позволят мне провести анализ. Я хотел знать, что лучше для моего эксперимента WGS или WES, так как общедоступные данные также могут повлиять на решение.
Кроме того, я считаю, что альтернативный сплайсинг добавляет уровень сложности, и хотел знать, почему WES все равно выполняется.
Заранее спасибо за ваши ответы. Пожалуйста, ответьте, что сможете. Еще раз спасибо!
ВЕС, почти наверняка. Во-первых, подавляющее большинство вариантов, вызывающих фенотип, обнаруживаются в экзонах. Для большинства анализов, изучающих мутации, вызывающие болезни, WGS бесполезен. Это только усложняет ваш анализ и не добавляет ничего полезного.
Другое дело, если вы знаете , что вас интересуют CNV. Обнаружение CNV в целом затруднено, но особенно трудно по данным WES. Обнаружение CNV в данных WGS гораздо менее подвержено ошибкам. Тем не менее, вы действительно должны иметь в виду, что в настоящее время не существует «хороших» методов для обнаружения CNV. Это нетривиальная проблема и все еще находится в зачаточном состоянии. Хотя существуют различные методы обнаружения CNV, ни один из них не обнаруживает все (или даже почти все). На самом деле, это такая проблема в этой области, что в настоящее время общепринятая мудрость заключается в том, что вы должны использовать несколько методов и комбинировать результаты. На самом деле многие современные детекторы CNV делают именно это. И они до сих порне найти их всех (особенно в данных WES). По сути, обнаружение CNV не для слабонервных и уж точно не для неспециалистов.
Хорошая новость заключается в том, что если у вас есть болезнь, вызывающая мутацию, очень маловероятно, что это CNV. Гораздо более вероятно, что вы просто ищете SNP. Что подводит нас к следующему вопросу. Боюсь, алгоритм, на который вы ссылаетесь, насколько я могу судить, вам вообще не поможет. Вы не пытаетесь сравнить свой ген со списком здоровых и нездоровых и выяснить, какая группа больше всего похожа на то, что у вас есть. Во-первых, потому что есть много отличий (мутаций), которые на самом деле не имеют никакого эффекта. Эти так называемые синонимичные мутациибудет по-прежнему учитываться вашим алгоритмом, но его следует игнорировать. Во-вторых, потому что крошечные различия могут иметь огромное значение. Есть определенные инструменты для того, что вы хотите сделать; не пытайтесь применять широкие, общие математические подходы. Вам нужны алгоритмы, специально разработанные для работы с биологическими данными и учитывающие лежащую в их основе биологию.
Итак, то, что вы ищете, это программы под названием "Variant Callers". Двумя самыми популярными являются GATK и FreeBayes . Они прочитают входной геном и сравнит его с эталонным геномом и предоставят вам список «вариантов», сайтов, где вход отличается от эталона. Затем вы захотите использовать такие ресурсы, как ClinVar или MutationTaster , чтобы проверить, считаются ли эти варианты патогенными. Это немного бесстыдная самореклама, поскольку я работаю в компании, которая ее создала, но VarSome , «Поисковая система геномных вариантов человека», — это новая поисковая система, которая объединяет информацию из множества разных источников в централизованном и легком для поиска репозиторий.
Однако, прежде чем вы приступите к поиску своих вариантов, вам нужно будет привести свой геном в соответствие с эталоном. По сути, современные методы секвенирования работают, разрезая геном на множество маленьких частей, копируя каждую часть несколько раз, а затем секвенируя каждую часть. Таким образом, результат запуска секвенирования представляет собой текстовый файл, который выглядит следующим образом:
@SN956:1934:H55WMBBXX:2:1101:0:15733 1:N:0:NTTACTCG
NCCCCAAGGAGACTTGCTGAGACCTTGAACAAGTGACACAATGTGAGCAGAACTTGTCTTGACAGAAAATGCTTTG
+
#AAAFJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJAJJJJFAJJJJJFJJ7
@SN956:1934:H55WMBBXX:2:1101:0:15743 1:N:0:NTTACTCG
NCTTCCTCACTAAAGTCCCATTTAGTGCTGATTGTGCTTTGGCTACTTCTCCTCTTGCCATTTTCCTGAACCCACG
+
#AAFFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJF
Обычно это несколько гигабайт (примерно ~2-3G для WES и >80G для WGS). Следовательно, для выравнивания этих последовательностей нужна мощная машина, и вы даже не хотите пытаться выравнивать последовательности WGS на своем ноутбуке. Это займет недели и, вероятно, потерпит неудачу. Еще одна причина, по которой вам следует предпочесть WES, а не WGS. В своей работе я обычно сопоставляю данные WGS с эталонным геномом, и это может легко занять > 100 ГБ ОЗУ .
Суть и то, что пытается донести этот бессвязный ответ, заключается в следующем:
Итак, если у вас действительно есть деньги, чтобы заплатить за анализ WGS (это стоит несколько тысяч евро / долларов, если вы не знали), что очень удивительно, если вы просто частное лицо, вместо того, чтобы тратить их на WGS, получите WES и потратьте свои деньги на то, чтобы эксперт проанализировал ваши данные для вас. Серьезно, это то, чем я зарабатываю на жизнь, вы, кажется, действительно не понимаете, насколько это сложно. И нет, я не предлагаю вам нанять меня :). Однако есть компании, которые предлагают подобные услуги. Используйте их, не изобретайте велосипед.
Полезные обзорные статьи для обнаружения CNV:
Ингибитор
мгкреббс
физиотерапевт
WYSIWYG
тердон