Я хотел сравнить аминокислотную последовательность ферментов для этого проекта, над которым я работаю, и мне нужно сравнить их по каталитическому сайту. Для этого я обратился к атласу каталитических сайтов, чтобы получить информацию о каталитических сайтах, но, поскольку они не предлагают мне простой способ программной загрузки структурных данных, я загрузил их из PDB RSCB , загрузив последовательность fasta. Когда я проверял каталитические сайты, они не совпадали с тем, что мне сообщал CSA, и именно тогда я понял, что это разные файлы. Возьмем, к примеру, 3nos, CSA представляет следующую последовательность :
МГНЛКС...
В то время как PDB представляет следующую последовательность :
ПКФПРВ...
Почему у них не одинаковая последовательность, если это один и тот же белок?
Извините, если это нубский вопрос, я не биолог, а просто ученый-компьютерщик, которому нравится биоинформатика.
Важная информация:
Данные CSA поступают отсюда , а данные PDB поступают отсюда .
Результаты кристаллографии (файлы pdb) почти всегда содержат усеченную последовательность.
Оба конца белка часто являются гибкими (даже в кристалле) и не дают достаточно данных для хорошей подгонки. Соответствующие остатки удаляются из модели и последовательности, и у вас остаются только остатки, которые показывают определенную электронную плотность.
Одна последовательность частично содержится в другой (выделено).
Таким образом, последовательность CSA (формат FASTA, усеченная):
>sp|P29474|NOS3_HUMAN Nitric oxide synthase, endothelial OS=Homo sapiens GN=NOS3 PE=1 SV=3
MGNLKSVAQEPGPPCGLGLGLGLGLCGKQGPATPAPEPSRAPASLLPPAPEHSPPSSPLT QPPEG PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAP EQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRN ...
взято с http://www.uniprot.org/uniprot/P29474 для удобства.
В то время как PDB один:
>3NOS:A|PDBID|CHAIN|SEQUENCE PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSPGPPAPEQLLSQARDFINQYYSSIKRSGSQA HEQRLQEVEAEVAATGTYQLRESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHIKYATNRGNLR SAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDPANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL...
В записи Uniprot упоминаются 3 разные изоформы из-за альтернативного сплайсинга, так что, возможно, это то, что здесь происходит. Вот результат выравнивания последовательности (с использованием https://www.ebi.ac.uk/Tools/psa/emboss_matcher/ ):
#======================================= # # Выровненные_последовательности: 2 # 1: NOS3_HUMAN № 2: ПОСЛЕДОВАТЕЛЬНОСТЬ # Матрица: EBLOSUM62 # Gap_penalty: 14\ # Расширить_пенальти: 4 # # Длина: 240 # Личность: 240/240 (100,0%) # Сходство: 240/240 (100,0%) # Пробелы: 0/240 (0,0%) # Оценка: 1294 # # #======================================= NOS3_HUMAN 66 PKFPRVKNWEVGSITYDTLSAQAQQDGPCTPRRCLGSLVFPRKLQGRPSP 115 ||||||||||||||||||||||||||||||||||||||||||||||||| ПОСЛЕДОВАТЕЛЬНОСТЬ 1 NOS3_HUMAN 116 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 165 ||||||||||||||||||||||||||||||||||||||||||||||||| ПОСЛЕДОВАТЕЛЬНОСТЬ 51 GPPAPEQLLSQARDFINQYYSSIKRSGSQAHEQRLQEVEAEVAATGTYQL 100 NOS3_HUMAN 166 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 215 ||||||||||||||||||||||||||||||||||||||||||||||||| ПОСЛЕДОВАТЕЛЬНОСТЬ 101 RESELVFGAKQAWRNAPRCVGRIQWGKLQVFDARDCRSAQEMFTYICNHI 150 NOS3_HUMAN 216 KYATNRGNLSAITVFPQRCPGRGDFRIWNSQLVRYAGYRQQDGSVRGDP 265 ||||||||||||||||||||||||||||||||||||||||||||||||| ПОСЛЕДОВАТЕЛЬНОСТЬ 151 NOS3_HUMAN 266 ANVEITELCIQHGWTPGNGRFDVLPLLLQAPDEPPELFLL 305 ||||||||||||||||||||||||||||||||||||||| ПОСЛЕДОВАТЕЛЬНОСТЬ 201 ANVEITELCIQHGWTPGGRFDVLPLLLQAPDEPPELFLL 240
Этот ответ правильный, я просто хотел добавить, что правильная порядковая нумерация сохраняется в файле PDB в записи DBREF (в чем вы можете убедиться, открыв PDB в текстовом редакторе):
DBREF 3NOS A 66 492 UNP P29474 NOS3_HUMAN 66 492
Говоря простым языком, последовательность, представленная в этом файле ( 3NOS
цепочка ) , A
соответствует остаткам связанной записи UniProt ( ) (присоединение: ).66
492
UNP
P29474
тердон
Жоао Арейас