Почему последовательность аминокислот, представленная в Атласе каталитических сайтов для данного белка, отличается от последовательности в банке данных белков RSCB

Я хотел сравнить аминокислотную последовательность ферментов для этого проекта, над которым я работаю, и мне нужно сравнить их по каталитическому сайту. Для этого я обратился к атласу каталитических сайтов, чтобы получить информацию о каталитических сайтах, но, поскольку они не предлагают мне простой способ программной загрузки структурных данных, я загрузил их из PDB RSCB , загрузив последовательность fasta. Когда я проверял каталитические сайты, они не совпадали с тем, что мне сообщал CSA, и именно тогда я понял, что это разные файлы. Возьмем, к примеру, 3nos, CSA представляет следующую последовательность :

МГНЛКС...

В то время как PDB представляет следующую последовательность :

ПКФПРВ...

Почему у них не одинаковая последовательность, если это один и тот же белок?

Извините, если это нубский вопрос, я не биолог, а просто ученый-компьютерщик, которому нравится биоинформатика.

Важная информация:

Данные CSA поступают отсюда , а данные PDB поступают отсюда .

Пожалуйста , отредактируйте свой вопрос и дайте нам точные ссылки, которые вы использовали для загрузки. Самое простое объяснение состоит в том, что на самом деле вы смотрите на разные белки, но мы не можем быть уверены, пока вы не покажете, что именно вы сравниваете. Например, ваша ссылка на RCSB показывает две последовательности, но не содержит информации о том, из какого они вида, какой изоформы и являются ли они целым белком. На самом деле они выглядят как белковые фрагменты (большинство белков начинаются с буквы М). Я предполагаю, что вы просматриваете всю последовательность на одном сайте и подпоследовательность на другом, но я не могу быть уверен.
Вот и извините за это

Ответы (3)

Результаты кристаллографии (файлы pdb) почти всегда содержат усеченную последовательность.

Оба конца белка часто являются гибкими (даже в кристалле) и не дают достаточно данных для хорошей подгонки. Соответствующие остатки удаляются из модели и последовательности, и у вас остаются только остатки, которые показывают определенную электронную плотность.

Одна последовательность частично содержится в другой (выделено).

Таким образом, последовательность CSA (формат FASTA, усеченная):

>sp|P29474|NOS3_HUMAN Nitric oxide synthase, endothelial OS=Homo sapiens GN=NOS3 PE=1 SV=3
MGNLKSVAQEPGPPCGLGLGLGLGLCGKQGPATPAPEPSRAPASLLPPAPEHSPPSSPLT QPPEG PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAP EQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRN ...

взято с http://www.uniprot.org/uniprot/P29474 для удобства.

В то время как PDB один:

>3NOS:A|PDBID|CHAIN|SEQUENCE PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAPEQLLSQARDFINQYYSSIKRSGSQA HEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHIKYATNRGNLR SAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDPANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL...

В записи Uniprot упоминаются 3 разные изоформы из-за альтернативного сплайсинга, так что, возможно, это то, что здесь происходит. Вот результат выравнивания последовательности (с использованием https://www.ebi.ac.uk/Tools/psa/emboss_matcher/ ):

#=======================================
#
# Выровненные_последовательности: 2
# 1: NOS3_HUMAN
№ 2: ПОСЛЕДОВАТЕЛЬНОСТЬ
# Матрица: EBLOSUM62
# Gap_penalty: 14\
# Расширить_пенальти: 4
#
# Длина: 240
# Личность: 240/240 (100,0%)
# Сходство: 240/240 (100,0%)
# Пробелы: 0/240 (0,0%)
# Оценка: 1294
#
#
#=======================================

NOS3_HUMAN 66 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 115
                     |||||||||||||||||||||||||||||||||||||||||||||||||
ПОСЛЕДОВАТЕЛЬНОСТЬ 1

NOS3_HUMAN 116 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 165
                     |||||||||||||||||||||||||||||||||||||||||||||||||
ПОСЛЕДОВАТЕЛЬНОСТЬ 51 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 100

NOS3_HUMAN 166 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 215
                     |||||||||||||||||||||||||||||||||||||||||||||||||
ПОСЛЕДОВАТЕЛЬНОСТЬ 101 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 150

NOS3_HUMAN 216 KYATNRGNLSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 265
                     |||||||||||||||||||||||||||||||||||||||||||||||||
ПОСЛЕДОВАТЕЛЬНОСТЬ 151

NOS3_HUMAN 266 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 305
                     |||||||||||||||||||||||||||||||||||||||
ПОСЛЕДОВАТЕЛЬНОСТЬ 201 ANVEITELCIQHGWTPGGRFDVLPLLLQAPDEPPELFLL 240

Этот ответ правильный, я просто хотел добавить, что правильная порядковая нумерация сохраняется в файле PDB в записи DBREF (в чем вы можете убедиться, открыв PDB в текстовом редакторе):

DBREF 3NOS A 66 492 UNP P29474 NOS3_HUMAN 66 492

Говоря простым языком, последовательность, представленная в этом файле ( 3NOSцепочка ) , Aсоответствует остаткам связанной записи UniProt ( ) (присоединение: ).66492UNPP29474