Какая часть сайтов должна быть полиморфной?

Вопрос

Рассмотрим очень длинную (в конечном итоге бесконечную) последовательность нейтральных участков ДНК. Рассмотрим панмиктическую популяцию постоянного размера. Н с частотой мутаций на сайт мю где все люди имеют одинаковую приспособленность.

Какова доля сайтов, которые, как мы ожидаем, будут полиморфными в популяции (SNP)?

Мотивация этого вопроса

Я задаю этот вопрос, чтобы проверить результаты моделирования, которое я запускаю. Например, я запускаю симуляцию с Икс ( Икс будет варьироваться ниже) нейтральные сайты с частотой мутаций для каждого сайта мю "=" 10 9 и численность населения Н "=" 100 . Я запускаю симуляции для 10 000 поколений. Рекомбинации нет. При количестве сайтов:

  • Икс "=" 10 3 Я получаю 0 SNP
  • Икс "=" 10 4 Я получаю 1 SNP
  • Икс "=" 10 5 Я получаю 3 SNP
  • Икс "=" 10 6 Я получаю 25 SNP
  • Икс "=" 10 7 Я получаю 238 SNP

Есть ли ошибка в моей модели или это то, что мы ожидаем, учитывая параметры?

В геноме человека 1 из 300 сайтов являются полиморфными (SNP) ( ссылка ). Это частота SNP, которая в 100 раз выше, чем та, которую я наблюдаю в своих симуляциях. Обратите внимание, однако, что предположение о нейтральности и вне демографических предположений не будет полностью верным, и этот результат может довольно далеко от нейтрального ожидания. Моя цель не в том, чтобы воспроизвести что-то похожее на геном человека, а лишь в том, чтобы воспроизвести нейтральные ожидания на данный момент.

Взгляните на https://en.wikipedia.org/wiki/Tajima's_D . Он дает оценку количества сайтов сегрегации для популяции в модели нейтральной мутации.
@putnamp Звучит действительно интересно. Означает ли это, что ожидаемое количество SNP в выборке размером н "=" Н (Я выбираю все население) Е [ С ] "=" 4 Н мю я "=" 1 Н 1 1 я ? Поэтому в моем случае Н "=" 100 , мю "=" 10 9 , Е [ С ] 1 / 481939 . Следовательно, из 10 7 сайты, которые я ожидаю иметь 20,75 SNP. Это правильно? Это в 10 раз меньше, чем я наблюдаю.
Я бы согласился с вашим комментарием. Если бы вы использовали все население в качестве размера выборки, вы бы ожидали получить примерно то число, которое вы предлагаете. Я написал пример программного обеспечения для моделирования, которое способно выполнять такие эволюционные сценарии ( Clotho ). Вы также можете проверить свои номера на MS .
Окей, звучит хорошо. Я посмотрю на Клото. Если вы хотите сделать краткий ответ из ваших комментариев, повторив расчет, который я сделал. И, надеюсь, вы получите достаточно репутации, чтобы комментировать в будущем благодаря этому ответу! Я был бы рад, если бы вы также связали статью, описывающую Клото. Спасибо! Я должен понять, почему у меня сейчас так много полиморфизма!

Ответы (3)

Повторяя вышеприведенные комментарии. Взгляните на D Tajima. Он дает оценку количества сайтов сегрегации для популяции в модели нейтральной мутации.

Общая форма оценки для диплоидной популяции: Е [ С ] "=" 4 Н мю я "=" 0 н 1 1 я . Здесь частота мутаций зависит от генома, а не от сайта, поэтому мю "=" л * 10 9 где л это размер генома. Оценка мест сегрегации всей популяции н "=" Н "=" 100 с размером генома л "=" 10 7 где каждый сайт имеет скорость мутации на геном мю "=" 10 2 можно было бы ожидать, что Е [ С ] 20,75 . Итак, ваши цифры кажутся выше ожидаемых.

Я написал пример программного обеспечения для моделирования, способного выполнять такие эволюционные сценарии ( рукопись Clotho ). Точно так же вы можете сверить свои цифры с популяцией, сгенерированной с помощью MS .

Доля полиморфных сайтов, существующих в популяции, зависит от биологии организма. Например, вы ожидаете обнаружить разную степень полиморфизма у родственных растений, имеющих разные системы селекции, например, у Silene [ 1 ]. Также ожидается, что прошлые узкие места уменьшат полиморфизмы [ 2 ]. Таким образом, ответ на ваш вопрос будет зависеть от конкретного вида и популяции, на которую вы смотрите.

Спасибо за Ваш ответ. Да, я прекрасно понимаю, что на эти процессы влияет характер отбора (частотно-зависимый, очищающий отбор, пространственно-временная неоднородность среды, LD и т. д.), а также демографические закономерности (узкие места, структура популяции, расширение ареала и т. д.). полиморфизм. Меня интересуют теоретические предсказания, предполагающие целую кучу вещей. Я сделал эти предположения немного более очевидными в своем посте.

мы включили скрипт для расчета этого в дополнительный материал

http://onlinelibrary.wiley.com/doi/10.1111/mec.13034/full

.... один сайт сегрегации на локус или максимум четыре SNP, как ожидается для геномных данных с коротким считыванием (см. прилагаемый R-скрипт для оценки).

Не могли бы вы рассказать немного больше о методе? Сейчас это больше комментарий.