Какой инструмент можно использовать для сопоставления нескольких последовательностей белков с одной эталонной последовательностью?

У меня есть интересующий меня белок длиной около 300 аминокислот. У меня также есть около 40 коротких последовательностей (все 9 аминокислот в длину); все они очень отличаются друг от друга. Я хотел бы выполнить несколько парных выравниваний, чтобы увидеть, совпадают ли эти последовательности (или имеют высокое сходство идентичности последовательностей) с какими-либо областями в интересующем белке.

Поскольку короткие последовательности из 9 аминокислот очень гетерогенны, они будут иметь сходство в разных областях интересующего белка. Я хотел бы знать, возможно ли выполнить выравнивание для всех 40 последовательностей за один шаг, вместо того, чтобы использовать КОБАЛЬТ 40 раз (и проверять каждую из коротких последовательностей относительно эталонной последовательности по отдельности).

Пожалуйста, дайте мне знать, если описание моей проблемы недостаточно ясно, я был бы признателен за любую помощь в определении способа сделать это.

Привет и добро пожаловать в Bio.SE! Похоже, вы заново изобретаете BLAST. Я был бы осторожен с выравниванием этих коротких регионов. Я не вижу проблемы с запуском 40 попарных выравниваний, если вы можете запустить попарное выравнивание программно.
Похоже, это вопрос биоинформатики , а не биологии. —— Пожалуйста, найдите время, чтобы пройти экскурсию , а затем просмотреть страницы справки, начиная с Как эффективно задавать вопросы на этом сайте. Спасибо! 😊

Ответы (3)

То, что вы хотите выполнить, обычно называется множественным выравниванием последовательностей. Как сказал @Wayne_Yux, первый шаг — поместить все ваши белковые последовательности в один файл fasta. Затем вы можете использовать один из нескольких онлайн-инструментов для применения различных алгоритмов выравнивания к вашему набору последовательностей белков.

Популярным алгоритмом выравнивания последовательностей является Clustal, который постепенно строит множественное выравнивание последовательностей из всех попарных выравниваний. genome.jp содержит веб-инструмент выравнивания, который позволяет вам выбирать из Clustal и других типов выравнивания (1). Для выравнивания множества небольших последовательностей в одну большую последовательность следует использовать параметр «МЕДЛЕННО/ТОЧНО» (2). После того, как вы загрузите свой фаст (3) и выполните множественное выравнивание (4), будет сгенерирован aln-файл, который вы можете скачать (5).

введите описание изображения здесь

Затем вы можете взять этот aln-файл и загрузить его в другой инструмент, позволяющий визуализировать выравнивание. Лично мне нравится ESPript , который дает выравнивание с цветовой кодировкой в ​​форматах pdf или изображений. Поскольку вы хотите сравнить множество последовательностей, вероятно, потребуется изменить параметры «Выводной макет выравнивания», например , изменить «Промежуток между блоками» на меньшее значение, чтобы все ваши последовательности уместились в одном кадре.

Вы можете сохранить 40 последовательностей в файле Fasta, а затем использовать blastpих для одновременного выравнивания с вашей эталонной последовательностью.

После этого вы можете проверить совпадения выравнивания и посмотреть, соответствуют ли они вашим ожиданиям в отношении качества.

При множественном выравнивании последовательностей алгоритмы будут пытаться выровнять последовательности по их длине (глобальное выравнивание). Что вам нужно, так это подход локального выравнивания с высоким штрафом за базовое несоответствие.

Алгоритм E-INS-i в MAFFT может обеспечить желаемую функциональность. Выбираем Дополнительные настройки и там:

  1. Стратегия -> Алгоритм E-INS-i

  2. Выровнять несвязанные сегменты -> Оставить пустые области

В зависимости от того, насколько разнородны ваши последовательности, вам может потребоваться тонкая настройка и других параметров. Без данных невозможно предоставить более подробное руководство.