Существует ли стандартный способ вывести длину последовательности белка из длины последовательности ДНК гена, кодирующего его?
Наивно я предполагал, что amino_acid_seq_length / 3 -1
(удаление стоп-кодона) должно работать, но, видимо, не всегда. Есть ли способ лучше?
Предположим, что ген является эукариотическим, в частности геном растения.
например
Или
Если вы посмотрите на последовательность ДНК в патенте , то увидите, что она не начинается с ATG и не заканчивается стоп-кодоном. Раскрываемая последовательность содержит несколько дополнительных оснований, отсюда и несоответствие длины белка и ДНК. Эти дополнительные основания почти всегда встречаются в кДНК, например, из-за полиаденилирования, последовательностей Козака и т. д.
НАУКА
любопытный_кот
НАУКА