Базы данных CATH и SCOP содержат около 1400 уникальных белковых складок, записанных в результате анализа PDB. Однако я не вижу никакого способа получить доступ к этим конкретным данным.
Список каждой из 1400 складок (только идентификационный номер и/или дескриптор)?
Для каждой отдельной складки (из 1400) список идентификаторов PDB для белков, которые, как известно, принимают каждую отдельную складку?
Если и существует простой способ сделать это, он очень хорошо спрятан. Утомительный и глупый способ сделать 1 (получить список сгибов), похоже, заключается в том, чтобы свернуть свой собственный:
Перейдите на http://scop.berkeley.edu/ver=2.07 (или любую другую последнюю версию).
Нажмите на каждый из 12 классов по очереди. например (а) все альфа-белки перенаправят вас на http://scop.berkeley.edu/sunid=46456 .
Сохраняйте исходный код каждой страницы как текст.
Напишите и запустите свой собственный синтаксический анализатор, чтобы извлечь sunid ( ) из http://scop.berkeley.edu/sunid= и строку описания, если хотите. (Это предполагает, что вы программируете.) Я думаю, что этот sunid - это идентификатор сгиба.
Если вы можете найти какую-либо базу данных или таблицу, в которой есть значения PDB и sunid, вы можете написать другую программу, чтобы найти ответ на 2.
В качестве альтернативы… (добавлено в январе 2021 г.)
Похоже, вы можете загрузить полную базу данных в формате SQL или текстовые файлы с возможностью анализа отсюда: Загрузка SCOP — Беркли
В ссылке также есть ссылка на схему:
Майк Серфас