Наборы данных выровненных нуклеотидных последовательностей [закрыто]

Где я могу найти некоторые наборы данных выровненных последовательностей нуклеотидов? И что я должен предположить о точности раскладок там?

(Я хотел бы использовать такие наборы данных для обучения модели выравнивания, над которой я работаю. В частности, чтобы помочь мне получить оценку некоторых параметров, таких как частота одиночных nt INDEL в некоторых местах.)

Что вы хотите сделать с этими выровненными последовательностями? Алгоритмы тестирования? На самом деле ваш вопрос немного неясен.
Я хотел бы использовать такой набор данных для обучения, т.е. чтобы помочь мне вывести некоторые параметры для инструмента выравнивания, над которым я работаю. Спасибо за ваш комментарий; Я отредактирую свой вопрос, чтобы уточнить.
Я согласен с @Chris! Вы имеете в виду, можно ли доверять самому выравниванию на основе используемого алгоритма или можно доверять самим последовательностям. Вы обеспокоены тем, что полуконсервативные последовательности выравниваются по-разному в зависимости от используемого алгоритма? Чтобы узнать о различных алгоритмах выравнивания, см. этот пост ( biology.stackexchange.com/questions/20075/… ). Я могу ошибаться, но множественное выравнивание и полуконсервативные последовательности в основном являются проблемой для AA, а не для нуклеотидов, поскольку они либо совпадают, либо нет.
Спасибо за ваш комментарий. Выравнивание аминокислот не подойдет для моей цели (я думаю), потому что я пытаюсь вывести вероятность одного nt INDEL в данном месте.
Таким образом, выравниванию следует доверять в том смысле, что нуклеотидные INDEL, предсказанные в результате выравнивания, верны.
Что ж... Инделы считываются вашим секвенсором... Имеются машинные ошибки и ошибки при подготовке проб. Вы должны настроить элементы управления на своей машине и обучить свой набор. Однако я не совсем понял ваш вопрос.
Я не очень понял ваш комментарий, но это, вероятно, потому, что я относительно новичок в этом мире. Что я пытаюсь сделать: пара выровненных последовательностей nt может иметь консервативные области, а также вставки/удаления. Эти вставки/делеции могут состоять из полных кодонов, но также могут быть вставки/делеции отдельных нуклеотидов (пока я прав?). Моя цель из набора данных выровненных последовательностей nt состоит в том, чтобы изучить эти вставки/удаления (и вывести на их основе параметры для инструмента выравнивания, над которым я работаю).
@AnasElghafari .. Я бы посоветовал вам использовать какую-нибудь диаграмму, чтобы прояснить ваш вопрос.
Ладно, забудем о «золотом стандарте» и «абсолютно правильном» бизнесе. Я отредактировал вопрос, поэтому теперь я запрашиваю только наборы данных выровненных последовательностей nt.
Привет, ребята, я отредактировал свой вопрос во что-то, что, надеюсь, стало понятнее. Не могли бы вы снять удержание?
что вы подразумеваете под выровненными последовательностями нуклеотидов: попарное выравнивание или MSA?
попарно было бы достаточно для моей цели.
В LANL есть несколько выравниваний по ВИЧ, созданных вручную . Длина ВИЧ весьма вариабельна, поэтому в этих выравниваниях вы найдете много вставок.

Ответы (1)

Вы можете найти 46-стороннее выравнивание multiz в браузере генома UCSC , оно ниже в части сравнительной геномики и помечено как «против 46-стороннее», что представляет собой выравнивание генома 46 видов позвоночных. Вы можете использовать данные своего браузера генома на сайте или получить информацию о загрузке здесь .

Если вас интересуют парные выравнивания, я не знаю ни одной базы данных парных выравниваний, но на самом деле она вам и не нужна. Вы можете искать последовательности нуклеотидов в базе данных нуклеотидов NCBI и выравнивать их с помощью BLAST на их веб-сайте . BLAST, возможно, является наиболее распространенным инструментом для парного выравнивания, а также для поиска выравнивания в базе данных, когда одна последовательность запросов ищет совпадения во всей базе данных последовательностей. Если вы хотите сделать большое количество выравниваний, вы можете скачать BLAST на свой компьютер, чтобы делать их быстрее.