Вывод длины последовательности белка из длины последовательности ДНК гена

Существует ли стандартный способ вывести длину последовательности белка из длины последовательности ДНК гена, кодирующего его?

Наивно я предполагал, что amino_acid_seq_length / 3 -1(удаление стоп-кодона) должно работать, но, видимо, не всегда. Есть ли способ лучше?

Предположим, что ген является эукариотическим, в частности геном растения.

например

введите описание изображения здесь

Или

введите описание изображения здесь

(AA Seq. / 3) - 1 должно быть хорошим приближением для бактерий и архей. Поскольку обычно транскрипт РНК является зрелым. В эукариотическом организме у вас есть все виды сложности обработки, поэтому, если вы не сплайсируете последовательность интронов, вы не будете знать наверняка последовательность белка.
Спасибо @SciEnt. Но если вы экспрессируете эукариотический ген в чем-то вроде кишечной палочки, результирующий рекомбинантный белок все равно должен быть (АА/3)-1, поскольку в них не будет оборудования для постобработки?
любопытный_кот, если это то, чего мы ожидали, вы правы.

Ответы (1)

Если вы посмотрите на последовательность ДНК в патенте , то увидите, что она не начинается с ATG и не заканчивается стоп-кодоном. Раскрываемая последовательность содержит несколько дополнительных оснований, отсюда и несоответствие длины белка и ДНК. Эти дополнительные основания почти всегда встречаются в кДНК, например, из-за полиаденилирования, последовательностей Козака и т. д.

Спасибо! Итак, если бы вы захотели использовать последовательность, скажем, для гетерологичной экспрессии, было бы обязательно исправлять эти аберрации? т.е. как сделать вывод о том, какой будет правильная длина аминокислоты или какие именно основания являются дополнительными основаниями? Другими словами, как «очистить» последовательность кДНК?
Вы можете использовать такой инструмент: web.expasy.org/translate. Просто введите последовательность и найдите самую длинную открытую рамку для чтения.
Еще раз спасибо, Ашафикс. Это многое для меня объясняет. Один небольшой вопрос: ваш инструмент предсказывает правильный белок 569 AA в случае моего второго фрагмента. Замечательно. Но в случае с первой последовательностью инструмент дает 569, тогда как во фрагменте патента указано 570 . АА? Я делаю ошибку? Или....?
Мне это кажется запутыванием патентных данных, фактическая последовательность в патенте 569, но если вы посмотрите на последние 5 аминокислот в переведенной последовательности, это будет PLGEE, а в аминокислотной последовательности патента из ниоткуда появляется аспартат: PLDEE. . Две рекомендации: 1) Начните организовывать свои последовательности с помощью какой-нибудь программы, их легче визуально сравнивать 2) относитесь к патентам с осторожностью, они должны говорить правду, иначе они будут недействительны, но они не обязательно говорят всю правду и это может быть скрыто глубоко в патенте, чтобы запутать читателя.
Спасибо за советы! Любые рекомендации для программы для организации моих последовательностей? Что ты используешь?
Я не думаю, что здесь уместно рекомендовать коммерческое программное обеспечение, но на Researchgate вы найдете много подсказок.