Мы можем довольно легко количественно определить разницу между двумя разными строками/последовательностями символов. Например, если мы возьмем слова trebuchet и trebucket , мы можем сказать, что они имеют расстояние Левенштейна , равное 1 (разница только в одном символе).
С лингвистической точки зрения эта дистанция очень заметна, тогда как разница между комплиментом и дополнением гораздо менее заметна. Несмотря на то, что обе пары разделены только одним редактированием (соответственно), не все различия одинаково различимы.
Что является биологическим эквивалентом этого , когда речь идет о ДНК-связывающих белках и РНК ? Как определить, какие последовательности ДНК более узнаваемо отличаются друг от друга? Например, если мы взяли ДНК-связывающий белок, который распознает последовательность TGCCTCGAA, будет ли он с большей вероятностью ошибочно распознавать A GCCT G GAA, чем TGCC AG GAA (или наоборот) в качестве своей последовательности-мишени?
Это еще не вопрос с общепринятым ответом, и он довольно часто возникает, например, в исследованиях популяционной изменчивости мотивов факторов транскрипции.
Обычно мы аппроксимируем предпочтения последовательности ДНК-связывающего белка матрицей весов позиций . Матрица весов даст вам оценку для двух последовательностей, поэтому простейшим способом количественной оценки относительной силы связывания для двух последовательностей является сравнение этих оценок. Вы также можете, скажем, сравнить относительные шансы на получение баллов при некотором фоновом распределении баллов, которое, возможно, будет более сопоставимым между различными факторами.
Оценка PWM (и другие средства описания специфичности последовательности) являются лишь приближением к тому, что вас действительно интересует, а именно к энергии связи, связанной с взаимодействием. Если у вас есть подробные экспериментальные данные о том, как белок связывается, вы можете их использовать, а также есть несколько статей, в которых строятся модели для аппроксимации этого на основе показателей PWM. Однако реальность такова, что вы можете только приблизительно приблизиться к тому, что происходит в клетке, из-за молекулярной скученности и многих других факторов, которые будут присутствовать на волокне хроматина, поэтому часто используется разница в баллах ШИМ.
Предсказание воздействия данного изменения на некодирующую последовательность ДНК является сложной задачей. Иногда вы получаете приличное приближение, но, в конце концов, вы пытаетесь сделать биохимию из первых принципов, а мы еще не достигли этого.
ДНК — это химическое вещество, поэтому ее взаимодействие определяется ее формой. Невозможно посмотреть на последовательность ДНК и узнать все последствия изменения буквы в ее форме. Я мог бы сказать вам, что изменение первых двух или двух последних букв интрона с большой вероятностью разрушит сайт сплайсинга, но вы не можете делать точных и быстрых предсказаний о связывании ДНК во многих других ситуациях.
МэттДмо
КругКвадрат
WYSIWYG