Какая часть сайтов должна быть полиморфной?

Question

Какая часть сайтов должна быть полиморфной?

снп
Биология
генетика
эволюция
популяционная генетика
теоретическая биология

Реми.б

Вопрос

Рассмотрим очень длинную (в конечном итоге бесконечную) последовательность нейтральных участков ДНК. Рассмотрим панмиктическую популяцию постоянного размера. $N$ с частотой мутаций на сайт $\mu$ где все люди имеют одинаковую приспособленность.

Какова доля сайтов, которые, как мы ожидаем, будут полиморфными в популяции (SNP)?

Мотивация этого вопроса

Я задаю этот вопрос, чтобы проверить результаты моделирования, которое я запускаю. Например, я запускаю симуляцию с $x$ ( $x$ будет варьироваться ниже) нейтральные сайты с частотой мутаций для каждого сайта $\mu = 10^{-9}$ и численность населения $N=100$ . Я запускаю симуляции для 10 000 поколений. Рекомбинации нет. При количестве сайтов:

$x=10^3$ Я получаю 0 SNP
$x=10^4$ Я получаю 1 SNP
$x=10^5$ Я получаю 3 SNP
$x=10^6$ Я получаю 25 SNP
$x=10^7$ Я получаю 238 SNP

Есть ли ошибка в моей модели или это то, что мы ожидаем, учитывая параметры?

В геноме человека 1 из 300 сайтов являются полиморфными (SNP) ( ссылка ). Это частота SNP, которая в 100 раз выше, чем та, которую я наблюдаю в своих симуляциях. Обратите внимание, однако, что предположение о нейтральности и вне демографических предположений не будет полностью верным, и этот результат может довольно далеко от нейтрального ожидания. Моя цель не в том, чтобы воспроизвести что-то похожее на геном человека, а лишь в том, чтобы воспроизвести нейтральные ожидания на данный момент.

путнампп

Взгляните на https://en.wikipedia.org/wiki/Tajima's_D . Он дает оценку количества сайтов сегрегации для популяции в модели нейтральной мутации.

Реми.б

@putnamp Звучит действительно интересно. Означает ли это, что ожидаемое количество SNP в выборке размером

n = N

$n=N$ (Я выбираю все население)

E [S] = 4 N μ \sum_{i = 1}^{N - 1} \frac{1}{i}

$E[S] = 4N\mu\sum_{i=1}^{N-1}\frac{1}{i}$ ? Поэтому в моем случае

N = 100, μ = 10^{- 9}, E [S] \approx 1 / 481939

$N=100, \mu = 10^{-9}, E[S] ≈ 1/481939$ . Следовательно, из

10^{7}

$10^7$ сайты, которые я ожидаю иметь

20.75

$20.75$ SNP. Это правильно? Это в 10 раз меньше, чем я наблюдаю.

путнампп

Я бы согласился с вашим комментарием. Если бы вы использовали все население в качестве размера выборки, вы бы ожидали получить примерно то число, которое вы предлагаете. Я написал пример программного обеспечения для моделирования, которое способно выполнять такие эволюционные сценарии ( Clotho ). Вы также можете проверить свои номера на MS .

Реми.б

Окей, звучит хорошо. Я посмотрю на Клото. Если вы хотите сделать краткий ответ из ваших комментариев, повторив расчет, который я сделал. И, надеюсь, вы получите достаточно репутации, чтобы комментировать в будущем благодаря этому ответу! Я был бы рад, если бы вы также связали статью, описывающую Клото. Спасибо! Я должен понять, почему у меня сейчас так много полиморфизма!

Ответы (3)

Какая часть сайтов должна быть полиморфной?

Взгляните на https://en.wikipedia.org/wiki/Tajima's_D . Он дает оценку количества сайтов сегрегации для популяции в модели нейтральной мутации.
@putnamp Звучит действительно интересно. Означает ли это, что ожидаемое количество SNP в выборке размером $n=N$ (Я выбираю все население) $E[S] = 4N\mu\sum_{i=1}^{N-1}\frac{1}{i}$ ? Поэтому в моем случае $N=100, \mu = 10^{-9}, E[S] ≈ 1/481939$ . Следовательно, из $10^7$ сайты, которые я ожидаю иметь $20.75$ SNP. Это правильно? Это в 10 раз меньше, чем я наблюдаю.
Я бы согласился с вашим комментарием. Если бы вы использовали все население в качестве размера выборки, вы бы ожидали получить примерно то число, которое вы предлагаете. Я написал пример программного обеспечения для моделирования, которое способно выполнять такие эволюционные сценарии ( Clotho ). Вы также можете проверить свои номера на MS .
Окей, звучит хорошо. Я посмотрю на Клото. Если вы хотите сделать краткий ответ из ваших комментариев, повторив расчет, который я сделал. И, надеюсь, вы получите достаточно репутации, чтобы комментировать в будущем благодаря этому ответу! Я был бы рад, если бы вы также связали статью, описывающую Клото. Спасибо! Я должен понять, почему у меня сейчас так много полиморфизма!

путнампп · Answer 1

Повторяя вышеприведенные комментарии. Взгляните на D Tajima. Он дает оценку количества сайтов сегрегации для популяции в модели нейтральной мутации.

Общая форма оценки для диплоидной популяции: $E[S]=4N\mu\sum_{i=0}^{n-1} \frac{1}{i}$ . Здесь частота мутаций зависит от генома, а не от сайта, поэтому $\mu=L * 10^{-9}$ где $L$ это размер генома. Оценка мест сегрегации всей популяции $n=N=100$ с размером генома $L=10^{7}$ где каждый сайт имеет скорость мутации на геном $\mu=10^{-2}$ можно было бы ожидать, что $E[S] \approx 20.75$ . Итак, ваши цифры кажутся выше ожидаемых.

Я написал пример программного обеспечения для моделирования, способного выполнять такие эволюционные сценарии ( рукопись Clotho ). Точно так же вы можете сверить свои цифры с популяцией, сгенерированной с помощью MS .

C_Z_ · Answer 2

Доля полиморфных сайтов, существующих в популяции, зависит от биологии организма. Например, вы ожидаете обнаружить разную степень полиморфизма у родственных растений, имеющих разные системы селекции, например, у Silene [ 1 ]. Также ожидается, что прошлые узкие места уменьшат полиморфизмы [ 2 ]. Таким образом, ответ на ваш вопрос будет зависеть от конкретного вида и популяции, на которую вы смотрите.

Спасибо за Ваш ответ. Да, я прекрасно понимаю, что на эти процессы влияет характер отбора (частотно-зависимый, очищающий отбор, пространственно-временная неоднородность среды, LD и т. д.), а также демографические закономерности (узкие места, структура популяции, расширение ареала и т. д.). полиморфизм. Меня интересуют теоретические предсказания, предполагающие целую кучу вещей. Я сделал эти предположения немного более очевидными в своем посте.

шафераб · Answer 3

мы включили скрипт для расчета этого в дополнительный материал

http://onlinelibrary.wiley.com/doi/10.1111/mec.13034/full

.... один сайт сегрегации на локус или максимум четыре SNP, как ожидается для геномных данных с коротким считыванием (см. прилагаемый R-скрипт для оценки).

Не могли бы вы рассказать немного больше о методе? Сейчас это больше комментарий.

Какая часть сайтов должна быть полиморфной?

Реми.б

путнампп

Реми.б

путнампп

Реми.б

Ответы (3)

путнампп

C_Z_

Реми.б

шафераб

АлисаД

Внутри и между разнообразием аллельных классов

По коэффициенту отбора

Простой вывод приближения Кимуры для вероятности фиксации мутации.

Диффузионное приближение к генетическому дрейфу

Статистическая генетика: частоты аллелей, соответствующие распределению Дирихле.

Почему наклон регрессии родитель-потомок равен наследуемости в узком смысле?

Возникают ли мутантные аллели в результате мутации дикого типа?

Почему количество мутаций на человека подчиняется распределению Пуассона?

Книги по популяции или эволюционной генетике?

Как определяется генетическое видообразование?