Каков оптимальный размер кадра для методов предсказания вторичной структуры белка?

Весь вопрос в том

Каков оптимальный размер кадра для методов предсказания вторичной структуры белка второго и третьего поколения? Обосновать ответ.

Я помню, что это как-то связано со средней длиной альфа-спирали. Точнее, 3 с обеих сторон сайта. Таким образом, общая длина кадра должна быть 7. Но я не могу вспомнить причину спора.

Что вы думаете?


Согласно тому, что мой профессор сказал в классе, 2-е и 3-е поколения реконструкции вторичной структуры белка основаны на статистических данных нескольких последовательных остатков. Я предполагаю, что он имел в виду под «размером кадра», сколько смежных остатков мы должны учитывать в алгоритме.

Ответы (3)

Под размером кадра вы имеете в виду раздвижное окно?

Я знаю, что если вы хотите предсказать вторичную структуру трансмембранного белка, то размер вашего окна должен составлять 20 аминокислот (это средняя длина 1 трансмембранной альфа-спирали, проходящей через мембрану).

Я нашел эту статью Чена, Кургана и Руана [1] .

В основном это говорит о том, что размер окна зависит от того, какой узор вы ищете, но в целом 19 остатков должны быть оптимальными.

Кроме того, предикторы вторичной структуры полагаются на многие функции, такие как гидрофобность, недостающие координаты в рентгеновских структурах, B-факторы, мотивы и т. д.


  1. Чен К., Курган Л., Руан Дж . 2006. Оптимизация размера скользящего окна для предсказания структуры белка. CIBCB '06: Симпозиум IEEE 2006 г. по вычислительному интеллекту, биоинформатике и вычислительной биологии, стр. 1-7, 28-29, doi: 10.1109 / CIBCB.2006.330959.
Это проблема вычислительной биологии — иногда трудно определить, что именно означает тот или иной термин. Но я думаю, что мой профессор спросил об общей предпосылке вторичной структуры белка, а не о трансмембранном белке.

Итак, 2 ответа, каждый из которых касается разных белковых сегментов разных типов/функций/структур, но не ответ, который действительно затрагивает суть вопроса. Из-за тега домашнего задания у меня возникает соблазн не отвечать - это то, что ученик должен выполнить самостоятельно. Итак, я дам общий ответ, чтобы вы начали думать. В основном такое значение — будь то 7 или 20 для ТМ или 13 — определяется опытным путем.

Я обнаружил, что 13 лучше всего подходит для производительности нейронных сетей и SVM для информации о вторичной структуре, когда я запускал это в R.

Какая-то причина?