Что делает последовательности ДНК самыми разными/узнаваемыми с биологической точки зрения? [дубликат]

Мы можем довольно легко количественно определить разницу между двумя разными строками/последовательностями символов. Например, если мы возьмем слова trebuchet и trebucket , мы можем сказать, что они имеют расстояние Левенштейна , равное 1 (разница только в одном символе).

С лингвистической точки зрения эта дистанция очень заметна, тогда как разница между комплиментом и дополнением гораздо менее заметна. Несмотря на то, что обе пары разделены только одним редактированием (соответственно), не все различия одинаково различимы.

Что является биологическим эквивалентом этого , когда речь идет о ДНК-связывающих белках и РНК ? Как определить, какие последовательности ДНК более узнаваемо отличаются друг от друга? Например, если мы взяли ДНК-связывающий белок, который распознает последовательность TGCCTCGAA, будет ли он с большей вероятностью ошибочно распознавать A GCCT G GAA, чем TGCC AG GAA (или наоборот) в качестве своей последовательности-мишени?

Это будет варьироваться от одного белка, связывающего нуклеиновую кислоту, к другому. Помните, ДНК и РНК — это не просто последовательности букв, они могут иметь вторичную структуру, а также более простые химические взаимодействия между соседними или более удаленными основаниями — см. в качестве примера шпильки РНК. Все это придает «форму» распознаваемой части нуклеиновой кислоты, которая может сообщать способность к связыванию в той же или, возможно, даже большей степени, чем одна только первичная последовательность.
@MattDMo Это, конечно, не удивительно, но мне кажется, что у этого варианта должен быть какой-то параметр. Например, возможно, переключение одного основания в последовательности с пурина на пиримидины более различимо, чем на другой пурин.

Ответы (2)

Это еще не вопрос с общепринятым ответом, и он довольно часто возникает, например, в исследованиях популяционной изменчивости мотивов факторов транскрипции.

Обычно мы аппроксимируем предпочтения последовательности ДНК-связывающего белка матрицей весов позиций . Матрица весов даст вам оценку для двух последовательностей, поэтому простейшим способом количественной оценки относительной силы связывания для двух последовательностей является сравнение этих оценок. Вы также можете, скажем, сравнить относительные шансы на получение баллов при некотором фоновом распределении баллов, которое, возможно, будет более сопоставимым между различными факторами.

Оценка PWM (и другие средства описания специфичности последовательности) являются лишь приближением к тому, что вас действительно интересует, а именно к энергии связи, связанной с взаимодействием. Если у вас есть подробные экспериментальные данные о том, как белок связывается, вы можете их использовать, а также есть несколько статей, в которых строятся модели для аппроксимации этого на основе показателей PWM. Однако реальность такова, что вы можете только приблизительно приблизиться к тому, что происходит в клетке, из-за молекулярной скученности и многих других факторов, которые будут присутствовать на волокне хроматина, поэтому часто используется разница в баллах ШИМ.

Предсказание воздействия данного изменения на некодирующую последовательность ДНК является сложной задачей. Иногда вы получаете приличное приближение, но, в конце концов, вы пытаетесь сделать биохимию из первых принципов, а мы еще не достигли этого.

ДНК — это химическое вещество, поэтому ее взаимодействие определяется ее формой. Невозможно посмотреть на последовательность ДНК и узнать все последствия изменения буквы в ее форме. Я мог бы сказать вам, что изменение первых двух или двух последних букв интрона с большой вероятностью разрушит сайт сплайсинга, но вы не можете делать точных и быстрых предсказаний о связывании ДНК во многих других ситуациях.