Каков хороший список нерешенных белковых структур?

Я пытаюсь получить список уникальных растворимых структурированных белков, у которых нет решенной структуры. То есть они не являются обычными мембранными белками или производными от другого белка.

Вещи, о которых я мог думать, - это низкопродуцирующие факторы транскрипции и новые гибридные белки.

Вы можете создать его самостоятельно, сравнив названия белков (видов по вашему выбору) и записи PDB. Плоские файлы UniProt имеют доступ к PDB для некоторых, но не для всех белков. Извлечение записей без PDB должно быть хорошей отправной точкой. Дайте мне знать, если это вас интересует, и я могу написать ответ с подробностями.
@terdon, это очень похоже на то, что я ищу. К сожалению, может существовать значительное количество белков, которые имеют аналоги у других видов, но имеют по существу такую ​​же структуру. Вероятно, безопасным тестом было бы посмотреть на нерешенные структуры в эколи.
Выберите белок, любой белок. Скорее всего, вы выберете тот, который не имеет решенной кристаллической структуры. Кроме того, вам нужно будет найти доказательства того, что белок не является неупорядоченным, если вы хотите, чтобы ваша структура что-то значила.
@leonardo, ну, это кажется проблемой.

Ответы (3)

Есть несколько финансируемых проектов и анализов, доступных только для этой цели.

Проекты структурной геномики или высокопроизводительной структуры берут все доступные пептидные последовательности, группируют их в семейства и обеспечивают доступность семейств последовательностей, указывающих на наиболее вероятные новые фолды.

Вот статус и список целей объединенного центра структурной геномики . Этот список отфильтрован по видам, а также по статусу проекта.

Их анализ доступен для просмотра. http://www1.jcsg.org/prod/newscripts/psca/help/document.cgi

Извините, это не так тщательно. В Nature также есть Target Track, который позволяет нескольким высокопроизводительным структурным центрам координировать свои усилия. У каждого из них могут быть ресурсы, которые могут выполнять вашу работу за вас.

Вот как бы я это сделал:

  1. Загрузите плоский файл UniProt/SWISSPROT для бактерий отсюда .

  2. После распаковки файлов извлеките идентификаторы белков E. coli, для которых в файле нет аннотации PDB (я даю вам командную строку, которая будет работать в системах *ix (Linux/Unix/OSX и т. д.)):

    zcat uniprot_sprot_bacteria.dat.gz | gawk '{if($1~/ID/){if($2~/_ECOLI/){id=$2; frag=0; eco=1; want=1}else{eco=0}}  if($1~/DE/ && $0~/Flags: Fragment/){frag=1;}if($1~/DR/ && $2~/PDB/){want=0; } if($1~/\/\// && want==1 && eco==1 && frag==0){print id}}' > no_pdbs.txt
    

    Объяснение деталей этой командной строки здесь явно не по теме :). Достаточно сказать, что он будет печатать те идентификаторы UniProt ID из плоского файла, имя которого заканчивается на _ECOLI и для которого в файле нет аннотации PDB. Он также игнорирует белковые фрагменты. Если вам нужна помощь в понимании этого, дайте мне знать, и мы можем поболтать или что-то в этом роде.

Результатом этого быстрого и грязного анализа является список из 2694 белков E.coli без аннотаций PDB в плоских файлах UniProt.

ПРЕДОСТЕРЕЖЕНИЯ:

  • Это только проверенные белки SWISSPROT, вы также можете получить отсюда белки UniProt/TrEMBL . Тем не менее, я бы рекомендовал вам придерживаться SWISSPROT.

  • Как указывали другие, вы должны отфильтровать этот список на предмет гомологии с другими известными структурами.

  • Тот факт, что в плоском файле нет аннотации PDB, не обязательно означает отсутствие известной структуры.

Итак, это не идеально, но должно служить отправной точкой. Удачи!

Вы также можете отфильтровать различные базы данных моделей белков, такие как «ProteinModelPortal», чтобы избавиться от белков, которые можно моделировать на основе гомологии.

Попробуйте просмотреть базы данных гомологии структур — последовательности, для которых в них нет аннотаций, скорее всего, являются именно теми последовательностями, которые вы ищете.

SUPERFAMILY содержит исчерпывающую аннотацию почти 2500 полностью секвенированных клеточных геномов. это было бы хорошим началом...