Внутри и между разнообразием аллельных классов

Question

Внутри и между разнообразием аллельных классов

Биология
генетика
эволюция
популяционная биология
популяционная генетика
теоретическая биология

Реми.б

Я читаю Charlesworth et al. 1997 . Они говорят о разнообразии внутри и между аллельными классами.

Нуклеотидное разнообразие ( $π$ ) на каждом нейтральном участке оценивали по среднему $2 \sum z_t (1-z_t)$ , надповторными интродукциями в месте единичных вариантов, где zt — частота нейтрального варианта в момент времени t, а суммирование ведется все время, пока не произойдет либо фиксация, либо утрата.

Общее генетическое разнообразие на нейтральных участках ( $π_T$ ) также был разложен на классы внутри и между аллельными классами в полиморфном локусе. Разнообразие внутри аллельных классов, которое здесь будет записано как $π_A$ , оценивали по среднему значению $2 \sum \left( x_t(1-x_t)+y_t)(1-y_t) \right)$ куда $x_t$ а также $y_t$ – частоты нейтрального варианта в пределах первого и второго аллельных классов соответственно. Разнообразие между аллельными классами по полиморфному локусу рассчитывали как разницу между значениями общего разнообразия и $π_A$

Обратите внимание, что скобки не совпадают, но это то, что написано в статье!

Почему меня смущает этот текст?

Меня смущает термин аллельный класс. Сначала я думаю, что здесь есть что-то необычное, и я думаю, что мы можем просто заменить термин «аллельный класс» на «аллель». но потом, когда я увидел уравнение для $\pi_A$ Я понимаю, что частота двух аллельных классов не обязательно добавляется к 1 (хотя мы рассматриваем только два аллельных класса).

Я также немного запутался в разнице между $\pi$ а также $\pi_T$ но я думаю, что они просто использовали две записи для одного и того же думать ( $\pi = \pi_T$ )

На жаргоне популяционной генетики разнообразие означает просто ожидаемую гетерозиготность. $\pi_T$ имеет смысл для меня. Это просто средняя гетерозиготность $\left(2 z(1-z)\right)$ рассчитывается по всем временным шагам. Возможно, более интуитивно понятно было бы интегрировать, а не суммировать по времени, а не по временным шагам.

Вопрос

Я могу прочитать уравнение для $\pi_A$ но я не могу понять, что это значит. Например, я понятия не имею, почему это следует называть внутриаллельным разнообразием классов. Где же $2(x(1-x)+y)(1-y)$ родом из? Весь мой вопрос может сводиться к определению аллельного класса .

РЕДАКТИРОВАТЬ

Термин allelic classопределен в Innan and Tajima (1997) .

Предположим, что в определенном месте есть два нуклеотида, скажем, А и Т. Тогда мы можем разделить последовательности ДНК на два класса: один класс включает последовательности с А, а другой включает последовательности с Т в этом сайте. Мы называем такой класс аллельным классом

( Слаткин 1996 также может помочь).

Я все еще не совсем уверен, что такое within allelic class variance. Возможно, это так: Возьмем наиболее распространенную последовательность в рассматриваемом аллельном классе. Для каждой последовательности подсчитайте количество попарных отличий от наиболее распространенной последовательности и возведите это значение в квадрат. Суммируйте по всей последовательности и разделите на количество последовательностей. В математической форме это будет: $\frac{1}{2N}\sum_i^{2N} (D_i)^2$ , куда $N$ это численность населения и $D_i$ это количество попарных различий между последовательностью $i$ и наиболее распространенная последовательность в рассматриваемом аллельном классе. Это звучит правильно для вас?

Реми.б

@AMR Я удалил свой длинный список комментариев...

Ответы (2)

Внутри и между разнообразием аллельных классов

@AMR Я удалил свой длинный список комментариев...

УПП · Answer 1

Из того, как я прочитал то, что вы написали, z (1-z) , переведенное в предложение, будет частотой нейтрального варианта (z), умноженной на частоту всех других возможных вариантов (1 - z) в конкретный момент времени t.

Разнообразие нуклеотидов затем представляет собой среднее значение удвоенной суммы всех частот нейтральных вариантов (z) , умноженное на частоту всех других возможных вариантов (1-z) за все периоды времени, пока либо не прекратится изменение в последовательности или аллель теряется (что может произойти с течением времени эволюции, особенно если аллельный класс представляет собой вредный вариант, или гетерозиготный аллель обеспечивает достаточную экспрессию для маскировки).

Для меня это звучит так, как будто результатом будет вероятность существования нейтрального варианта с течением времени, которая должна быть числом от 0 до 1 . Если бы z было 1 , это означало бы, что нейтральный вариант всегда имеет место, поэтому частота других вариантов равна 0 , что делает 2* 1(1-1) = 0 , что для меня имеет смысл, поскольку это означало бы отсутствие разнообразия нуклеотидов. . Эта последовательность всегда является той последовательностью, и поэтому нет никакого разнообразия последовательностей.

Поскольку это похоже на распределение частот, я думаю, что полное генетическое разнообразие подразумевает вероятность всех различных аллельных классов, составляющих аллель. Итак, если у вас есть первый класс с частотой x и второй класс с частотой y, это звучит так, как будто общее разнообразие будет равно вероятности нейтрального варианта x и вероятности нейтрального варианта y.

Как правило, когда вы смотрите на вероятность нескольких событий, вы должны умножить вероятность одного события на вероятность другого события. В результате я склонен сказать, что разнообразие нуклеотидов внутри классов πA в 2 раза превышает среднее значение суммы частоты x, умноженной на частоту y , или 2∑ x(1-x)(1-y) + y(1-y) или факторизованное 2∑ (x(1-x) + y)(1-y) или словами внутриклассовое разнообразие (πA)в 2 раза больше, чем частота х как нейтрального варианта, умноженная на частоту всех других вариантов, когда х — нейтральный вариант, умноженная на частоту всех других вариантов, когда у — нейтральный вариант, плюс частота у, как нейтрального варианта, умноженная на частота всех других вариантов, когда у является нейтральным вариантом.

Я думаю, причина, по которой это может быть сделано, заключается в том, что по причинам селективного давления предпочтение может быть отдано x, поэтому в тех случаях, когда вариант равен y, некоторые из этих вариантов (возможно, все) будут равны x, поэтому, умножая внутриклассовое разнообразие x по частоте всех вариантов, когда класс равен y, подразумевает, что внутри класса будет меньше разнообразия, чем если бы вы просто сложили частотные вероятности вместе.

Одна вещь, которую я бы сделал, это выполнил поиск, чтобы увидеть, было ли опубликовано исправление к этой статье, поскольку в формуле была ошибка. Это может помочь прояснить. Также обратите внимание, что я могу ошибаться в своей оценке, поскольку у меня нет доступа к фактическому документу, на который вы ссылаетесь.

Желаем удачи в этом.

когда вы смотрите на вероятность нескольких событий, вы должны умножить вероятность одного события на вероятность другого события . Это верно, если события независимы, поэтому P(X,Y)=P(X)P(Y). В противном случае P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X).
@ddiez Итак, какая формула имеет смысл? Статистика не моя сильная сторона, и я пытался разобраться с уравнением с Remi.b, так как кажется, что в исходной статье могла быть опечатка. В их формуле не было правильно парных скобок, и было трудно определить, должно ли это быть x(1-x) + y(1-y) или (x(1-x) + y)(1-y)? Спасибо.
Мой комментарий предназначен просто как расширение вашего утверждения, чтобы отметить, что общая формула является более поздней (она верна во всех ситуациях), тогда как первая верна только при условии независимости. Но это может быть совершенно нормально в данном контексте (я не читал статью). Давайте посмотрим на мнение ОП по этому поводу.

Реми.б · Answer 2

Термин allelic classопределен в Innan and Tajima (1997) .

Предположим, что в определенном сайте есть два нуклеотида, скажем, А и Т. Тогда мы можем разделить последовательности ДНК на два класса: один класс включает последовательности с А, а другой включает последовательности с Т в этом сайте. Мы называем такой класс аллельным классом

Два элемента, которые вводили в заблуждение (по крайней мере, меня) в статье

Неявно , в интересующей статье ( Charlesworth et al. 1997 ), они определяют аллельные классы для сайта, который, как известно, находится в процессе селекции (и который может быть только биаллельным). Понятие аллельного класса относится не к полиморфному нейтральному сайту, на который они обращают внимание, а всегда к одному и тому же сайту (тот, который выбирается).
В формуле есть лишняя скобка. Настоящая формула должна быть $2 \sum x_t(1-x_t) + y_t(1-y_t)$ .

Что такое $x$ а также $y$ ?

Рассмотрим полиморфный (биаллельный) локус (который не подвергается селекции) и вычисляют частоту одного аллеля в первом аллельном классе (определенном для селектируемого сайта) (это $x$ ) и вычислить частоту того же аллеля в другом аллельном классе, это $y$ . Другими словами, считайте, что выбранный имеет два аллеля $A$ а также $B$ и нейтральный локус имеет два аллеля $a$ а также $b$ . $x$ - частота последовательностей, содержащих $A$ которые также содержат $a$ а также $y$ - частота последовательностей, содержащих $B$ который также содержит $a$ .

Значение формулы

Формула представляет собой просто сумму ожидаемой гетерозиготности в пределах каждого аллельного класса.

2 Икс (1 - Икс) + 2 у (1 - у) знак равно 2 (Икс (1 - Икс) + у (1 - у))

$2x(1-x) + 2y(1-y) = 2 (x(1-x)+y(1-y))$ . Затем нам просто нужно просуммировать по всему временному шагу, в течение которого нейтральный локус полиморфен, и мы получим

π_{А} знак равно \sum_{я знак равно 1}^{Т} 2 ({Икс}_{т} (1 - {Икс}_{т}) + у_{т} (1 - у_{т})) знак равно 2 \sum {Икс}_{т} (1 - {Икс}_{т}) + у_{т} (1 - у_{т})

$\pi_A = \sum_{i=1}^T 2 (x_t(1-x_t) + y_t(1-y_t)) = 2 \sum x_t(1-x_t) + y_t(1-y_t)$ , куда

x

$x$ а также

y

$y$ теперь являются функцией рассматриваемого момента (времени) и

T

$T$ это общее количество временных шагов.

Какие значения могут $\pi_A$ брать?

Эта мера принимает значения от 0 до $T$ это все $x_t$ а также $y_t$ принимать значения между $0$ а также $1$ (и поэтому $x(1-x)$ а также $y(1-y)$ принимать значения от 0 до 0,5). Разделив все на $T$ приведет к мере, которая связана между 0 и 1.

Я бы не смог понять без помощи @AMR. Спасибо

Внутри и между разнообразием аллельных классов

Реми.б

Реми.б

Ответы (2)

УПП

ддиез

УПП

ддиез

Реми.б

Почему количество мутаций на человека подчиняется распределению Пуассона?

Дисперсия Fst в модели бесконечного острова

Влияние соотношения полов на эффективный размер популяции

По коэффициенту отбора

Равновесие Харди-Вайнберга, обобщенное для добавления инбридинга (неслучайное спаривание)

Понимание F-статистики в популяционной генетике

Простой вывод приближения Кимуры для вероятности фиксации мутации.

Диффузионное приближение к генетическому дрейфу

Как определить «квазификсацию» в непрерывном приближении конечной популяции?

Статистическая генетика: частоты аллелей, соответствующие распределению Дирихле.