У меня есть интересующий меня белок длиной около 300 аминокислот. У меня также есть около 40 коротких последовательностей (все 9 аминокислот в длину); все они очень отличаются друг от друга. Я хотел бы выполнить несколько парных выравниваний, чтобы увидеть, совпадают ли эти последовательности (или имеют высокое сходство идентичности последовательностей) с какими-либо областями в интересующем белке.
Поскольку короткие последовательности из 9 аминокислот очень гетерогенны, они будут иметь сходство в разных областях интересующего белка. Я хотел бы знать, возможно ли выполнить выравнивание для всех 40 последовательностей за один шаг, вместо того, чтобы использовать КОБАЛЬТ 40 раз (и проверять каждую из коротких последовательностей относительно эталонной последовательности по отдельности).
Пожалуйста, дайте мне знать, если описание моей проблемы недостаточно ясно, я был бы признателен за любую помощь в определении способа сделать это.
То, что вы хотите выполнить, обычно называется множественным выравниванием последовательностей. Как сказал @Wayne_Yux, первый шаг — поместить все ваши белковые последовательности в один файл fasta. Затем вы можете использовать один из нескольких онлайн-инструментов для применения различных алгоритмов выравнивания к вашему набору последовательностей белков.
Популярным алгоритмом выравнивания последовательностей является Clustal, который постепенно строит множественное выравнивание последовательностей из всех попарных выравниваний. genome.jp содержит веб-инструмент выравнивания, который позволяет вам выбирать из Clustal и других типов выравнивания (1). Для выравнивания множества небольших последовательностей в одну большую последовательность следует использовать параметр «МЕДЛЕННО/ТОЧНО» (2). После того, как вы загрузите свой фаст (3) и выполните множественное выравнивание (4), будет сгенерирован aln-файл, который вы можете скачать (5).
Затем вы можете взять этот aln-файл и загрузить его в другой инструмент, позволяющий визуализировать выравнивание. Лично мне нравится ESPript , который дает выравнивание с цветовой кодировкой в форматах pdf или изображений. Поскольку вы хотите сравнить множество последовательностей, вероятно, потребуется изменить параметры «Выводной макет выравнивания», например , изменить «Промежуток между блоками» на меньшее значение, чтобы все ваши последовательности уместились в одном кадре.
Вы можете сохранить 40 последовательностей в файле Fasta, а затем использовать blastp
их для одновременного выравнивания с вашей эталонной последовательностью.
После этого вы можете проверить совпадения выравнивания и посмотреть, соответствуют ли они вашим ожиданиям в отношении качества.
При множественном выравнивании последовательностей алгоритмы будут пытаться выровнять последовательности по их длине (глобальное выравнивание). Что вам нужно, так это подход локального выравнивания с высоким штрафом за базовое несоответствие.
Алгоритм E-INS-i в MAFFT может обеспечить желаемую функциональность. Выбираем Дополнительные настройки и там:
Стратегия -> Алгоритм E-INS-i
Выровнять несвязанные сегменты -> Оставить пустые области
В зависимости от того, насколько разнородны ваши последовательности, вам может потребоваться тонкая настройка и других параметров. Без данных невозможно предоставить более подробное руководство.
Джеймс
Дэйвид
многослойный