Почему рестриктазы обычно имеют четное число оснований в своем сайте узнавания?

Question

Почему рестриктазы обычно имеют четное число оснований в своем сайте узнавания?

Биология
биоинформатика
секвенирование ДНК
ферменты рестрикции

Рори М

При чтении моего учебника я заметил, что во всех примерах, кроме одного из восьми, место распознавания было четным числом оснований.

Я задался вопросом, было ли это просто совпадением, поэтому я взял данные с этого сайта для более чем тысячи известных сайтов распознавания и поместил их в электронную таблицу ( XLS загружен здесь ). Результаты, вероятно, лучше всего представить графически:

круговая диаграмма ферментов рестрикции

линейчатая диаграмма ферментов рестрикции

Статистический тест : Хи-квадрат соответствия.

Null Hypothesis: 
There is no significant difference between the number of restriction sequences 
that are an odd or even length.

|---------|----------|----------|-----|-------|----------|
|  Trait  | Observed | Expected | O-E |(O-E)^2|(O-E)^2 /E|
|---------|----------|----------|-----|-------|----------|
|  Odd    |    172   |  231.5   |-59.5|3540.25|  15.293  |
|  Even   |    291   |  231.5   | 59.5|3540.25|  15.293  |
|---------|----------|----------|-----|-------|----------|

Chi Squared Value = 30.586

P=0.05, 1 Degree of Freedom: Critical Value of 3.841

H0 rejected with 95% confidence (indeed with 99.9%+ confidence)

Может ли кто-нибудь объяснить или предположить, почему сайты узнавания рестрикционных ферментов чаще имеют четное число оснований?

Обновления

Расширенный набор данных для включения новых сайтов распознавания из ресурса, на который ссылается 96well .
Удалены все повторяющиеся сайты распознавания, оставив 465 различных последовательностей распознавания ( моя вина, что я не удалил их в первую очередь ) .
Выполнить тест статистики на данных
См. предыдущую версию

Джанпаоло Р.

Поздравляю с вашим рефлексом: от учебника к поиску по базе данных. Отлично сделано! Ваши данные взяты из образца примерно 1100 рестрикционных ферментов. Rebase.neb.com сообщает о примерно 6800 ферментах рестрикции. Ваши выводы все еще актуальны?

Ответы (4)

Почему рестриктазы обычно имеют четное число оснований в своем сайте узнавания?

Поздравляю с вашим рефлексом: от учебника к поиску по базе данных. Отлично сделано! Ваши данные взяты из образца примерно 1100 рестрикционных ферментов. Rebase.neb.com сообщает о примерно 6800 ферментах рестрикции. Ваши выводы все еще актуальны?

Майкл Кун · Answer 1

Я думаю, это связано с чрезмерным количеством сайтов распознавания с длиной 6:

data<-c(16, 16, 12, 12, 6, 6, 6, 6, 4, 16, 6, 6, 6, 6, 15, 15, 6, 6, 6, 6, 11, 11, 6, 6, 4, 4, 6, 6, 11, 12, 6, 6, 23, 23, 6, 6, 6, 6, 9, 12, 4, 4, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 10, 10, 6, 4, 6, 6, 11, 11, 9, 9, 6, 6, 6, 6, 5, 5, 8, 8, 6, 6, 8, 8, 6, 9, 10, 10, 6, 6, 6, 5, 5, 6, 4, 6, 6, 5, 5, 14, 14, 6, 6, 6, 16, 6, 6, 6, 6, 15, 15, 6, 6, 6, 6, 6, 18, 18, 7, 7, 11, 11, 20, 20, 6, 13, 4, 4, 6, 6, 6, 6, 6, 6, 6, 11, 6, 6, 7, 7, 6, 6, 6, 6, 6, 12, 6, 6, 10, 10, 23, 23, 7, 7, 23, 23, 12, 12, 6, 6, 6, 6, 10, 10, 6, 6, 8, 8, 6, 6, 35, 35, 11, 11, 7, 7, 6, 6, 9, 9, 8, 8, 16, 16, 6, 6, 17, 17, 6, 6, 6, 6, 23, 23, 6, 6, 4, 4, 21, 21, 12, 12, 20, 20, 6, 6, 6, 6, 6, 7, 7, 6, 6, 6, 6, 5, 5, 11, 11, 6, 11, 11, 6, 6, 5, 5, 7, 7, 11, 11, 11, 11, 6, 6, 12, 12, 6, 6, 6, 21, 21, 9, 9, 8, 8, 7, 7, 16, 16, 4, 4, 6, 6, 6, 6, 7, 7, 18, 18, 6, 6, 6, 6, 6, 23, 23, 7, 34, 34, 39, 39, 6, 6, 12, 12, 5, 5, 19, 19, 8, 8, 8, 8, 4, 6, 6, 6, 6, 6, 5, 5, 6, 6, 6, 6, 7, 7, 4, 4, 15, 15, 7, 7, 7, 7, 14, 14, 11, 11, 27, 27, 12, 12, 4, 4, 10, 10, 6, 6, 8, 8, 7, 7, 8, 8, 7, 7, 5, 5, 7, 7, 6, 7, 7, 6, 6, 8, 8, 39, 39, 6, 6, 12, 12, 8, 8, 7, 13, 13, 8, 8, 8, 8, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 5, 7, 17, 17, 17, 17, 11, 11, 15, 15, 6, 6, 6, 5, 5, 5, 6, 6, 5, 7, 7, 12, 6, 12, 6, 6, 6, 5, 6, 6, 7, 2, 5, 11, 5, 6, 4, 5, 7, 5, 4, 4, 6, 4, 5, 6, 7, 12, 6, 7, 7, 7, 6, 4, 4, 7, 5, 6, 6, 6, 7, 5, 12, 13, 5, 6, 6, 6, 5, 11, 11, 5, 6, 10, 5, 5, 11, 6, 5, 5, 6, 5, 6, 5, 6, 6, 7, 7, 6, 5, 5, 7, 6, 5, 6, 5, 6, 5, 5, 7, 6, 6, 6, 3, 5)
h<-hist(data, breaks=0.5:40.5)
df<-data.frame(counts=h$counts, mids=h$mids)
df$even <- (df$mids%%2 == 0)
ggplot(df, aes(x=mids, y=counts, fill=even))+geom_bar(stat="identity")

Гистограмма длины сайта распознавания

Если вы посмотрите на гистограмму длин, вы увидите, что нет смещения в сторону четных длин сайтов распознавания, за исключением длины 6.

Я предполагаю, что последующий вопрос: почему это так?
Интересно. Есть ли мотив в длине 6 сайтов?
Я думаю, вы обнаружили естественную предвзятость, которая существует для сайтов узнавания. Распределение симметрично для 4-8 оснований и, очевидно, не может стать намного меньше 4 без значительной потери специфичности и, как следствие, не будет очень полезным. С другой стороны, чем больше требуемый участок ДНК, тем больше должен быть фермент, что дорого, и в то время как вы получаете специфичность, вы жертвуете эффективностью резки ради таких вещей, как метилирование и вторичная структура.
Удивительно, что, по-видимому, существует по крайней мере один рестрикционный фермент с последовательностью распознавания длиной всего 2 !

пользователь560 · Answer 2

Не уверен, почему за Ларри Парнелла проголосовали против, технически он не ошибался.

Кристаллические структуры наиболее популярных ферментов рестрикции уже известны, и их можно легко найти в банке данных о белках или в Википедии для графической справки. Любой отрезок двухцепочечной ДНК совершает полный оборот на 360 градусов (о своей спиральной оси) за 10-10,5 пар оснований. Тогда поворот на 180 градусов составит половину этих ~ 5 баз.

Палиндром не является строго необходимым для сайта рестрикционного фермента, но его использование имеет свои преимущества. Во-первых, для синтеза одной субъединицы фермента требуется половина занимаемого пространства генома, поэтому трансляция более эффективна (2 продукта из половины набора инструкций).

Некоторые ферменты рестрикции используют преимущества вращательной симметрии, такие как EcoRI и EcoRII (как нечетные, так и четные палиндромные ферменты). Они распознают один и тот же GAA (в случае EcoRI) или NNGG (в случае EcoRII), исходящие из каждой из двух цепей ДНК. Для целей обозначения мы пишем сайт узнавания только положительной цепи (поскольку код ДНК симметричен). Асимметричные сайты узнавания объясняются тем, что ферменты связываются с ДНК в виде гетеродимеров.

В New England Biolabs есть очень хороший обзор видов рестрикционных ферментов и различий в их поведении.

http://www.neb.com/nebecomm/tech_reference/restriction_enzymes/overview.asp#.T0wqHYcgerY

Подводя итог, палиндромы часто, но не обязательно, состоят из четного числа оснований (домены связываются с 2n основаниями). Многие сайты распознавания ферментов являются палиндромными в буквальном смысле (CATTAC) или биологическом смысле (GAATTC), потому что используется ось симметрии. Палиндромные последовательности используются чаще, потому что ферменты состоят из гомодимеров.

Не могли бы вы расширить «домены привязываются к 2n базам» - я прав, думая, что это причина предпочтения четных баз? Почему шесть так популярны, как указано в ответе Biocs?
Если одна половина димера распознает «n» оснований, а большинство этих ферментов (насколько нам известно об анализе кристаллической структуры/молекулярной массы) являются димерами, то это означает, что они должны распознавать «2n» оснований, что искажает результаты анализа. общая длина сайта распознавания должна быть четным числом. Из вашего очень хорошо собранного набора данных существует огромное количество ферментов, которые распознают 5-7 оснований, с модой 6. Мой вывод , основанный на кристаллических структурах, заключается в том, что распознавание ~ 3 оснований составляет около четверти оборота двойного- скрученной спирали и представляет собой легко распознаваемую конформацию.

Ларри_Парнелл · Answer 3

Большинство ферментов рестрикции узнают палиндромы, следовательно, сайт узнавания состоит из четного числа остатков. Почему палиндромы? Это позволяет значительно увеличить сложность (или редкость) с точки зрения последовательности ДНК, при этом требуя очень небольшой дополнительной сложности от белка. Другими словами, если белковый домен распознает 2, 3 или 4 п.н. ДНК, простое добавление второй копии этого домена к пептидной цепи (через дублирование ДНК, кодирующей этот домен) делает свое дело. Гораздо проще дублировать модуль, чем создавать новый или второй (возможно, дополнительный) модуль.

Как четность или нечетность влияет на палиндром? Какова будет разница вероятностей между CATATG (6) и CATGATG (7), то есть почему даже палиндромы более вероятны?
-1 за обоснование вашего ответа путем определения палиндромов как последовательностей с четным числом оснований. EcoRII распознает палиндром CCWGG (W означает A или T).
@RoryM CAT TAC не палиндром. CAT ATG — это палиндром.
@GerganaVandova извините, я думал о палиндроме в здравом смысле, а не в смысле ДНК, я внесу изменения!
Неправильное использование слова палиндром для этих последовательностей вызывает у меня настоящую ненависть — они осесимметричны, а не палиндромны!
@RoryM: я понятия не имею, почему вы интерпретируете ответ Ларри как предполагающий, что осесимметричные - ;) - последовательности распознавания должны быть даже тем, о чем он говорит, так это о том, что дублирование одного модуля распознавания может производить осесимметричную последовательность распознавания и что это приведет к последовательности распознавания четной длины.

кормить щенков · Answer 4

Являются ли свесы с нечетными номерами палиндромами? Кто-то привел пример, в котором говорится, что это палиндром:

5'-КАТГАТГ-3'

Однако на противоположной нити в центре будет буква C, то есть она будет иметь последовательность:

5'-КАТКАТГ-3'

В этом примере два самых центральных основания (G и C) дополняют друг друга, но две последовательности не являются строго палиндромными. Это должно иметь место всякий раз, когда в выступе имеется нечетное количество оснований.
Другой пример, 3-х базовый свес.

5'-ГТК-3'

Дополнение будет:

5'-ГАК-3'

Который не является палиндромом верхней последовательности. Это означает, что в половине случаев выступающие части с нечетным числом оснований, отрезанные одним и тем же рестрикционным ферментом из случайных фрагментов, не будут комплементарными (выступающие части 5'-GTC-3' не могут гибридизоваться с другими выступающими частями 5'-GTC-3'). , только к 5'-GAC-3'), и если не уделять должного внимания их последовательностям, выступающие части с нечетными номерами в проектах клонирования могут вызвать проблемы. Пример свеса с четным номером:

5'-ААТТ-3'

В этом случае противоположная прядь будет иметь такой же выступ:

5'-ААТТ-3'

и всегда будет иметь гомологию с другими выступающими концами 5'-AATT-3'. Я подозреваю, что причина, по которой существует более четное количество рестрикционных ферментов, заключается в том, чтобы избежать этой проблемы.

Это, возможно, лучше подходит для последующего вопроса, чем ответ.
@MaximilinPress Последнее предложение, кажется, несколько решает проблему. К OP: я добавил баннер «добавить цитату», потому что ответ больше похож на длинный комментарий или, в лучшем случае, на обоснованное предположение. Лучше всего придумывать научно обоснованные ответы, включая ссылки на заслуживающие доверия источники.

Почему рестриктазы обычно имеют четное число оснований в своем сайте узнавания?

Рори М

Обновления

Джанпаоло Р.

Ответы (4)

Майкл Кун

Бобтеджо

Джанпаоло Р.

пользователь560

Викки

пользователь560

Рори М

пользователь560

Ларри_Парнелл

Рори М

Гергана Вандова

Гергана Вандова

Рори М

Джек Эйдли

Джек Эйдли

кормить щенков

Максимилиан Пресс

АлисаД

Попытка понять общую картину, стоящую за секвенированием, выравниванием и поиском ДНК.

Поиск целевой базы данных противораковых препаратов для определения последовательности ДНК опухоли пациента

химерные последовательности [закрыто]

Параметры анализа вариантов вызова [закрыто]

Как сравнить реализации алгоритма Смита – Уотермана?

конституция области чтения и гена (IGV)

где найти относительное частотное распределение синонимичных кодонов

Почему два разных эталонных генома E. coli имеют разную длину?

Можно ли повторно выровнять файлы SAM/BAM?

Инструмент для выравнивания нуклеотидов со всеми кодами нуклеотидов (например, R, Y, W, S и т. д.)?