Я пытаюсь получить список уникальных растворимых структурированных белков, у которых нет решенной структуры. То есть они не являются обычными мембранными белками или производными от другого белка.
Вещи, о которых я мог думать, - это низкопродуцирующие факторы транскрипции и новые гибридные белки.
Есть несколько финансируемых проектов и анализов, доступных только для этой цели.
Проекты структурной геномики или высокопроизводительной структуры берут все доступные пептидные последовательности, группируют их в семейства и обеспечивают доступность семейств последовательностей, указывающих на наиболее вероятные новые фолды.
Вот статус и список целей объединенного центра структурной геномики . Этот список отфильтрован по видам, а также по статусу проекта.
Их анализ доступен для просмотра. http://www1.jcsg.org/prod/newscripts/psca/help/document.cgi
Извините, это не так тщательно. В Nature также есть Target Track, который позволяет нескольким высокопроизводительным структурным центрам координировать свои усилия. У каждого из них могут быть ресурсы, которые могут выполнять вашу работу за вас.
Вот как бы я это сделал:
Загрузите плоский файл UniProt/SWISSPROT для бактерий отсюда .
После распаковки файлов извлеките идентификаторы белков E. coli, для которых в файле нет аннотации PDB (я даю вам командную строку, которая будет работать в системах *ix (Linux/Unix/OSX и т. д.)):
zcat uniprot_sprot_bacteria.dat.gz | gawk '{if($1~/ID/){if($2~/_ECOLI/){id=$2; frag=0; eco=1; want=1}else{eco=0}} if($1~/DE/ && $0~/Flags: Fragment/){frag=1;}if($1~/DR/ && $2~/PDB/){want=0; } if($1~/\/\// && want==1 && eco==1 && frag==0){print id}}' > no_pdbs.txt
Объяснение деталей этой командной строки здесь явно не по теме :). Достаточно сказать, что он будет печатать те идентификаторы UniProt ID из плоского файла, имя которого заканчивается на _ECOLI и для которого в файле нет аннотации PDB. Он также игнорирует белковые фрагменты. Если вам нужна помощь в понимании этого, дайте мне знать, и мы можем поболтать или что-то в этом роде.
Результатом этого быстрого и грязного анализа является список из 2694 белков E.coli без аннотаций PDB в плоских файлах UniProt.
ПРЕДОСТЕРЕЖЕНИЯ:
Это только проверенные белки SWISSPROT, вы также можете получить отсюда белки UniProt/TrEMBL . Тем не менее, я бы рекомендовал вам придерживаться SWISSPROT.
Как указывали другие, вы должны отфильтровать этот список на предмет гомологии с другими известными структурами.
Тот факт, что в плоском файле нет аннотации PDB, не обязательно означает отсутствие известной структуры.
Итак, это не идеально, но должно служить отправной точкой. Удачи!
Попробуйте просмотреть базы данных гомологии структур — последовательности, для которых в них нет аннотаций, скорее всего, являются именно теми последовательностями, которые вы ищете.
SUPERFAMILY содержит исчерпывающую аннотацию почти 2500 полностью секвенированных клеточных геномов. это было бы хорошим началом...
тердон
Бобтеджо
пользователь560
Бобтеджо