Полногеномное секвенирование против полноэкзомного секвенирования

Я работаю над проектом, в котором хочу обнаружить гены, вызывающие определенное заболевание, которое у меня может быть. Мне было интересно, заставить ли WGS или WES выполнить этот эксперимент: -

Я просматриваю SNP и CNV своих генов и хочу сравнить свои данные с данными здоровых и больных людей. Для гена я рассчитываю расстояние документа для каждой группы (нормальной и больной), используя этот алгоритм ( https://math.stackexchange.com/questions/1080377/how-close-apart-are-two-message-document-distance- алгоритм ), так как это позволит мне определить, какие гены у меня являются аномальными или «близкими» к тому, чтобы быть классифицированными как аномальные, и какие гены являются нормальными или «близкими» к тому, чтобы их можно было назвать нормальными в соответствии с алгоритмом и данными, полученными из двух групп. .

Для проведения этого эксперимента мне нужно секвенировать мой геном И определить базы данных, которые позволят мне провести анализ. Я хотел знать, что лучше для моего эксперимента WGS или WES, так как общедоступные данные также могут повлиять на решение.

Кроме того, я считаю, что альтернативный сплайсинг добавляет уровень сложности, и хотел знать, почему WES все равно выполняется.

Заранее спасибо за ваши ответы. Пожалуйста, ответьте, что сможете. Еще раз спасибо!

Трудно ответить, не зная больше о болезни. Я думаю, что во многих случаях экзом подойдет, поскольку любое заболевание, которое у вас есть, вероятно, вызвано неисправным белком, но мутация также может быть связана с сайтом сплайсинга или регуляторной последовательностью. С секвенированием всего генома вы получите МНОГО дерьма, поскольку все мы генетически непохожи.
Возможно, за исключением некоторых CNV, «дистанционная» мера различий в последовательностях генома вряд ли даст что-то полезное. Единственная базовая разница может иметь огромные последствия или не иметь никаких последствий, несмотря на одинаковую меру расстояния.
Спасибо вам обоим за ваши ответы! У меня есть список генов-кандидатов, которые были идентифицированы исследованиями GWA. Я думал о профилировании только этих генов и поиске подсказок. Как правильно заметил @mgkrebbs, одно базовое различие может иметь все значение или не иметь никакого значения, что заставляет меня сомневаться в моем методе. Ребята, не подскажете альтернативы?
Если у вас есть деньги и приличные компьютеры, выбирайте WGS. Это определенно более информативно, чем WES. Секвенированием экзома люди занимаются в первую очередь для экономии ресурсов.
@WYSIWYG также намного проще извлекать значимую информацию из WES.

Ответы (1)

ВЕС, почти наверняка. Во-первых, подавляющее большинство вариантов, вызывающих фенотип, обнаруживаются в экзонах. Для большинства анализов, изучающих мутации, вызывающие болезни, WGS бесполезен. Это только усложняет ваш анализ и не добавляет ничего полезного.

Другое дело, если вы знаете , что вас интересуют CNV. Обнаружение CNV в целом затруднено, но особенно трудно по данным WES. Обнаружение CNV в данных WGS гораздо менее подвержено ошибкам. Тем не менее, вы действительно должны иметь в виду, что в настоящее время не существует «хороших» методов для обнаружения CNV. Это нетривиальная проблема и все еще находится в зачаточном состоянии. Хотя существуют различные методы обнаружения CNV, ни один из них не обнаруживает все (или даже почти все). На самом деле, это такая проблема в этой области, что в настоящее время общепринятая мудрость заключается в том, что вы должны использовать несколько методов и комбинировать результаты. На самом деле многие современные детекторы CNV делают именно это. И они до сих порне найти их всех (особенно в данных WES). По сути, обнаружение CNV не для слабонервных и уж точно не для неспециалистов.

Хорошая новость заключается в том, что если у вас есть болезнь, вызывающая мутацию, очень маловероятно, что это CNV. Гораздо более вероятно, что вы просто ищете SNP. Что подводит нас к следующему вопросу. Боюсь, алгоритм, на который вы ссылаетесь, насколько я могу судить, вам вообще не поможет. Вы не пытаетесь сравнить свой ген со списком здоровых и нездоровых и выяснить, какая группа больше всего похожа на то, что у вас есть. Во-первых, потому что есть много отличий (мутаций), которые на самом деле не имеют никакого эффекта. Эти так называемые синонимичные мутациибудет по-прежнему учитываться вашим алгоритмом, но его следует игнорировать. Во-вторых, потому что крошечные различия могут иметь огромное значение. Есть определенные инструменты для того, что вы хотите сделать; не пытайтесь применять широкие, общие математические подходы. Вам нужны алгоритмы, специально разработанные для работы с биологическими данными и учитывающие лежащую в их основе биологию.

Итак, то, что вы ищете, это программы под названием "Variant Callers". Двумя самыми популярными являются GATK и FreeBayes . Они прочитают входной геном и сравнит его с эталонным геномом и предоставят вам список «вариантов», сайтов, где вход отличается от эталона. Затем вы захотите использовать такие ресурсы, как ClinVar или MutationTaster , чтобы проверить, считаются ли эти варианты патогенными. Это немного бесстыдная самореклама, поскольку я работаю в компании, которая ее создала, но VarSome , «Поисковая система геномных вариантов человека», — это новая поисковая система, которая объединяет информацию из множества разных источников в централизованном и легком для поиска репозиторий.

Однако, прежде чем вы приступите к поиску своих вариантов, вам нужно будет привести свой геном в соответствие с эталоном. По сути, современные методы секвенирования работают, разрезая геном на множество маленьких частей, копируя каждую часть несколько раз, а затем секвенируя каждую часть. Таким образом, результат запуска секвенирования представляет собой текстовый файл, который выглядит следующим образом:

@SN956:1934:H55WMBBXX:2:1101:0:15733 1:N:0:NTTACTCG
NCCCCAAGGAGACTTGCTGAGACCTTGAACAAGTGACACAATGTGAGCAGAACTTGTCTTGACAGAAAATGCTTTG
+
#AAAFJJJJJJJJJFFJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJAJJJJFAJJJJJFJJ7
@SN956:1934:H55WMBBXX:2:1101:0:15743 1:N:0:NTTACTCG
NCTTCCTCACTAAAGTCCCATTTAGTGCTGATTGTGCTTTGGCTACTTCTCCTCTTGCCATTTTCCTGAACCCACG
+
#AAFFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJF

Обычно это несколько гигабайт (примерно ~2-3G для WES и >80G для WGS). Следовательно, для выравнивания этих последовательностей нужна мощная машина, и вы даже не хотите пытаться выравнивать последовательности WGS на своем ноутбуке. Это займет недели и, вероятно, потерпит неудачу. Еще одна причина, по которой вам следует предпочесть WES, а не WGS. В своей работе я обычно сопоставляю данные WGS с эталонным геномом, и это может легко занять > 100 ГБ ОЗУ .

Суть и то, что пытается донести этот бессвязный ответ, заключается в следующем:

  • WES лучше, чем WGS, при поиске мутаций, вызывающих заболевание. Гораздо проще анализировать данные, и 99% случаев, которые вам нужны, относятся к экзонам. Это также намного, намного дешевле.
  • Это не просто. Вы, кажется, думаете, что можете вальсировать и сделать это сами. Можно, но это очень далеко не тривиально. Это также не дешево.

Итак, если у вас действительно есть деньги, чтобы заплатить за анализ WGS (это стоит несколько тысяч евро / долларов, если вы не знали), что очень удивительно, если вы просто частное лицо, вместо того, чтобы тратить их на WGS, получите WES и потратьте свои деньги на то, чтобы эксперт проанализировал ваши данные для вас. Серьезно, это то, чем я зарабатываю на жизнь, вы, кажется, действительно не понимаете, насколько это сложно. И нет, я не предлагаю вам нанять меня :). Однако есть компании, которые предлагают подобные услуги. Используйте их, не изобретайте велосипед.

использованная литература

Полезные обзорные статьи для обнаружения CNV:

  1. Чжао и др. BMC Bioinformatics , 2013, 14 (Приложение 11): S1 (DOI: 10.1186/1471-2105-14-S11-S1, ссылка )
  2. Таттини Л., Д'Аурицио Р. и Маги А. Фронт. биоинж. Биотехнология , 2015. 3:92 . (DOI: 10.3389/fbioe.2015.00092, ссылка )