Предсказание структуры белка по последовательности аминокислот

Информация, предоставленная на этом ресурсе https://predictioncenter.org/ , почти не поддается перевариванию (как и все в этой области), поэтому, если кто-нибудь может сказать мне, с какой точностью мы можем сейчас предсказывать третичную структуру белка - я был бы признателен. .

Также хотелось бы услышать ваши мысли на тему «почему клетка может создать одну и ту же белковую структуру тысячи раз, используя известные нам физические законы, а мы должны угадывать ее с помощью машинного обучения»? Почему это сложно?

«используя известные нам физические законы» — Вы имеете в виду, что мы знаем законы физики или что мы знаем, что законы термодинамики определяют, что белок складывается до минимально возможной свободной энергии, или что мы знаем, как белок на самом деле прогрессирует до его термодинамически благоприятное состояние? Если вы скажете нам, что, по вашему мнению, мы знаем и что именно, по вашему мнению, является «этом», нам нужно угадать, мы сможем объяснить, почему «это» сложно. В настоящее время вашему вопросу не хватает ясности, необходимой для эффективной помощи.
@ Дэвид, да, ты прав, у меня было слишком простое представление о процессе, после дополнительного изучения я понимаю, почему ты возражаешь

Ответы (3)

с какой точностью мы можем предсказать третичную структуру белка

Это зависит от белка. Если первичная последовательность близко соответствует последовательности белка, для которого структура уже определена, то можно использовать методы на основе шаблона для моделирования трехмерной структуры (так называемое моделирование гомологии ). Эти методы, как правило, точны, что подтверждается оценкой шаблонного моделирования , хотя подтверждение кристаллической структуры доступно только для меньшинства моделей (1%, согласно этой статье 2010 г. ).

Для белков без структурно разрешенных гомологов часто используется фолдинг ab initio , который основан на молекулярно-механической оценке итеративного фолдинга пептидной цепи для поиска структур, минимизирующих свободную энергию Гиббса. Популярное программное обеспечение для молекулярно-механического моделирования белков включает CHARMM и AMBER . Ab initio методы требуют больших вычислительных ресурсов и их сложнее проверить.

'почему клетка может создать одну и ту же белковую структуру тысячи раз, используя известные нам физические законы, а мы должны угадывать ее с помощью машинного обучения'? Почему это сложно?

Трудно знать все клеточные факторы, присутствующие при синтезе определенного белка, и то, как эти факторы влияют на укладку белка. Каковы температура и рН вблизи рибосомы? Участвуют ли белки-шапероны ? Является ли самая низкоэнергетическая структура истинной структурой или нативная структура попадает в локальный стабильный минимум с функциональным потенциалом, отобранным эволюцией? Хорошее обсуждение этого последнего пункта можно найти на Quora .

Спасибо +1! В вашем ответе есть много хороших моментов для дальнейшего исследования :fire:

Predictioncenter.org каждые два года проводит открытый конкурс — Критическая оценка предсказания структуры (CASP). CASP 14 уже идет.

Лучшие программы для складывания ab initio — это сильно дополненная молекулярная динамика с машинным обучением и набор алгоритмов прогнозирования, объединенных для создания структуры. Посмотрите на программное обеспечение Rosetta Дэвида Бейкера . Совсем недавно DeepMind от Google опередил Розетту и группу других.

Predictioncenter.org/casp13/zscores_final.cgi

Deepmind — это сеть, управляемая Deep Belief https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery .

Мы обучили нейронную сеть прогнозировать распределение расстояний между каждой парой остатков в белке (представлено на рисунке 2). Затем эти вероятности были объединены в оценку, которая оценивает, насколько точна предполагаемая структура белка. Мы также обучили отдельную нейронную сеть, которая использует все расстояния в совокупности, чтобы оценить, насколько предложенная структура близка к правильному ответу.

Проблема сворачивания белка известна как парадокс Левинталя : типичный белок из нескольких сотен аминокислот может складываться в астрономически большое число конфигураций, все из которых согласуются с законами физики (например, имеют одинаковые или почти одинаковые конфигурации). энергия). Тем не менее, реальный белок в клетке (почти) всегда имеет одну и ту же структуру, а все известные белки укладываются примерно в тысячу четко определенных структур (более того, иногда белки с небольшим сходством последовательностей принимают точно такую ​​же структуру).

Для тех, кто хочет узнать больше о лежащей в основе физики, довольно удобочитаемым введением являются Лекции Хуанга по статистической физике фолдинга белков , тогда как другие ответы в этой ветке уже дали довольно хороший обзор методов, используемых на практике — обратите внимание, что эти не обязательно полагаются на машинное обучение, как предлагает OP, хотя машинное обучение используется для этой цели уже несколько десятилетий, например, см. эту книгу .