Как получить список белков, отсортированных по ~1400 уникальным белковым складкам?

Базы данных CATH и SCOP содержат около 1400 уникальных белковых складок, записанных в результате анализа PDB. Однако я не вижу никакого способа получить доступ к этим конкретным данным.

  1. Список каждой из 1400 складок (только идентификационный номер и/или дескриптор)?

  2. Для каждой отдельной складки (из 1400) список идентификаторов PDB для белков, которые, как известно, принимают каждую отдельную складку?

Подходит ли rcsb.org/search/browse/scop ?

Ответы (2)

Если и существует простой способ сделать это, он очень хорошо спрятан. Утомительный и глупый способ сделать 1 (получить список сгибов), похоже, заключается в том, чтобы свернуть свой собственный:

  1. Перейдите на http://scop.berkeley.edu/ver=2.07 (или любую другую последнюю версию).

  2. Нажмите на каждый из 12 классов по очереди. например (а) все альфа-белки перенаправят вас на http://scop.berkeley.edu/sunid=46456 .

  3. Сохраняйте исходный код каждой страницы как текст.

  4. Напишите и запустите свой собственный синтаксический анализатор, чтобы извлечь sunid ( ) из http://scop.berkeley.edu/sunid= и строку описания, если хотите. (Это предполагает, что вы программируете.) Я думаю, что этот sunid - это идентификатор сгиба.

Если вы можете найти какую-либо базу данных или таблицу, в которой есть значения PDB и sunid, вы можете написать другую программу, чтобы найти ответ на 2.

В качестве альтернативы… (добавлено в январе 2021 г.)

  1. Загрузите dir.cla.scope.2.07-stable.txt (или последнюю версию)
  2. Сохранить как текстовый файл.
  3. Откройте в Mircorsoft Excel. (Простое перетаскивание на значок приложения правильно отформатировало его на моем Mac. Ваш пробег может отличаться.)
  4. Вы можете просто выбрать столбец с идентификаторами, вставить их на другой лист, а затем удалить дубликаты, чтобы получить все разные идентификаторы сгибов. (В качестве альтернативы у вас есть около 276 000 записей, которые вы можете делать с чем угодно.)
Поскольку это всплыло снова примерно через пять лет, и я действительно использовал это недавно, я добавил непрограммный метод для получения информации, просто используя электронную таблицу Excel.

Похоже, вы можете загрузить полную базу данных в формате SQL или текстовые файлы с возможностью анализа отсюда: Загрузка SCOP — Беркли

В ссылке также есть ссылка на схему:

введите описание изображения здесь

Спасибо за ответ, но это не ответ на вопрос. Возможность скачать базу данных не помогает. Схема могла бы быть полезной, за исключением того, что ни одна из таблиц не имеет около ~ 1400 строк или вообще не упоминает складки/топологии в имени или описании таблицы.