Наборы данных выровненных нуклеотидных последовательностей [закрыто]

Question

Наборы данных выровненных нуклеотидных последовательностей [закрыто]

Биология
биоинформатика
анализ последовательности
выравнивание последовательности

Анас Эльгафари

Где я могу найти некоторые наборы данных выровненных последовательностей нуклеотидов? И что я должен предположить о точности раскладок там?

(Я хотел бы использовать такие наборы данных для обучения модели выравнивания, над которой я работаю. В частности, чтобы помочь мне получить оценку некоторых параметров, таких как частота одиночных nt INDEL в некоторых местах.)

Крис

Что вы хотите сделать с этими выровненными последовательностями? Алгоритмы тестирования? На самом деле ваш вопрос немного неясен.

Анас Эльгафари

Я хотел бы использовать такой набор данных для обучения, т.е. чтобы помочь мне вывести некоторые параметры для инструмента выравнивания, над которым я работаю. Спасибо за ваш комментарий; Я отредактирую свой вопрос, чтобы уточнить.

Бехзад Роушанраван

Я согласен с @Chris! Вы имеете в виду, можно ли доверять самому выравниванию на основе используемого алгоритма или можно доверять самим последовательностям. Вы обеспокоены тем, что полуконсервативные последовательности выравниваются по-разному в зависимости от используемого алгоритма? Чтобы узнать о различных алгоритмах выравнивания, см. этот пост ( biology.stackexchange.com/questions/20075/… ). Я могу ошибаться, но множественное выравнивание и полуконсервативные последовательности в основном являются проблемой для AA, а не для нуклеотидов, поскольку они либо совпадают, либо нет.

Анас Эльгафари

Спасибо за ваш комментарий. Выравнивание аминокислот не подойдет для моей цели (я думаю), потому что я пытаюсь вывести вероятность одного nt INDEL в данном месте.

Анас Эльгафари

Таким образом, выравниванию следует доверять в том смысле, что нуклеотидные INDEL, предсказанные в результате выравнивания, верны.

WYSIWYG

Что ж... Инделы считываются вашим секвенсором... Имеются машинные ошибки и ошибки при подготовке проб. Вы должны настроить элементы управления на своей машине и обучить свой набор. Однако я не совсем понял ваш вопрос.

Анас Эльгафари

Я не очень понял ваш комментарий, но это, вероятно, потому, что я относительно новичок в этом мире. Что я пытаюсь сделать: пара выровненных последовательностей nt может иметь консервативные области, а также вставки/удаления. Эти вставки/делеции могут состоять из полных кодонов, но также могут быть вставки/делеции отдельных нуклеотидов (пока я прав?). Моя цель из набора данных выровненных последовательностей nt состоит в том, чтобы изучить эти вставки/удаления (и вывести на их основе параметры для инструмента выравнивания, над которым я работаю).

WYSIWYG

@AnasElghafari .. Я бы посоветовал вам использовать какую-нибудь диаграмму, чтобы прояснить ваш вопрос.

Анас Эльгафари

Ладно, забудем о «золотом стандарте» и «абсолютно правильном» бизнесе. Я отредактировал вопрос, поэтому теперь я запрашиваю только наборы данных выровненных последовательностей nt.

Анас Эльгафари

Привет, ребята, я отредактировал свой вопрос во что-то, что, надеюсь, стало понятнее. Не могли бы вы снять удержание?

WYSIWYG

что вы подразумеваете под выровненными последовательностями нуклеотидов: попарное выравнивание или MSA?

Анас Эльгафари

попарно было бы достаточно для моей цели.

rmccloskey

В LANL есть несколько выравниваний по ВИЧ, созданных вручную . Длина ВИЧ весьма вариабельна, поэтому в этих выравниваниях вы найдете много вставок.

Ответы (1)

Наборы данных выровненных нуклеотидных последовательностей [закрыто]

Что вы хотите сделать с этими выровненными последовательностями? Алгоритмы тестирования? На самом деле ваш вопрос немного неясен.
Я хотел бы использовать такой набор данных для обучения, т.е. чтобы помочь мне вывести некоторые параметры для инструмента выравнивания, над которым я работаю. Спасибо за ваш комментарий; Я отредактирую свой вопрос, чтобы уточнить.
Я согласен с @Chris! Вы имеете в виду, можно ли доверять самому выравниванию на основе используемого алгоритма или можно доверять самим последовательностям. Вы обеспокоены тем, что полуконсервативные последовательности выравниваются по-разному в зависимости от используемого алгоритма? Чтобы узнать о различных алгоритмах выравнивания, см. этот пост ( biology.stackexchange.com/questions/20075/… ). Я могу ошибаться, но множественное выравнивание и полуконсервативные последовательности в основном являются проблемой для AA, а не для нуклеотидов, поскольку они либо совпадают, либо нет.
Спасибо за ваш комментарий. Выравнивание аминокислот не подойдет для моей цели (я думаю), потому что я пытаюсь вывести вероятность одного nt INDEL в данном месте.
Таким образом, выравниванию следует доверять в том смысле, что нуклеотидные INDEL, предсказанные в результате выравнивания, верны.
Что ж... Инделы считываются вашим секвенсором... Имеются машинные ошибки и ошибки при подготовке проб. Вы должны настроить элементы управления на своей машине и обучить свой набор. Однако я не совсем понял ваш вопрос.
Я не очень понял ваш комментарий, но это, вероятно, потому, что я относительно новичок в этом мире. Что я пытаюсь сделать: пара выровненных последовательностей nt может иметь консервативные области, а также вставки/удаления. Эти вставки/делеции могут состоять из полных кодонов, но также могут быть вставки/делеции отдельных нуклеотидов (пока я прав?). Моя цель из набора данных выровненных последовательностей nt состоит в том, чтобы изучить эти вставки/удаления (и вывести на их основе параметры для инструмента выравнивания, над которым я работаю).
@AnasElghafari .. Я бы посоветовал вам использовать какую-нибудь диаграмму, чтобы прояснить ваш вопрос.
Ладно, забудем о «золотом стандарте» и «абсолютно правильном» бизнесе. Я отредактировал вопрос, поэтому теперь я запрашиваю только наборы данных выровненных последовательностей nt.
Привет, ребята, я отредактировал свой вопрос во что-то, что, надеюсь, стало понятнее. Не могли бы вы снять удержание?
что вы подразумеваете под выровненными последовательностями нуклеотидов: попарное выравнивание или MSA?
попарно было бы достаточно для моей цели.
В LANL есть несколько выравниваний по ВИЧ, созданных вручную . Длина ВИЧ весьма вариабельна, поэтому в этих выравниваниях вы найдете много вставок.

Маконд · Answer 1

Вы можете найти 46-стороннее выравнивание multiz в браузере генома UCSC , оно ниже в части сравнительной геномики и помечено как «против 46-стороннее», что представляет собой выравнивание генома 46 видов позвоночных. Вы можете использовать данные своего браузера генома на сайте или получить информацию о загрузке здесь .

Если вас интересуют парные выравнивания, я не знаю ни одной базы данных парных выравниваний, но на самом деле она вам и не нужна. Вы можете искать последовательности нуклеотидов в базе данных нуклеотидов NCBI и выравнивать их с помощью BLAST на их веб-сайте . BLAST, возможно, является наиболее распространенным инструментом для парного выравнивания, а также для поиска выравнивания в базе данных, когда одна последовательность запросов ищет совпадения во всей базе данных последовательностей. Если вы хотите сделать большое количество выравниваний, вы можете скачать BLAST на свой компьютер, чтобы делать их быстрее.

Наборы данных выровненных нуклеотидных последовательностей [закрыто]

Анас Эльгафари

Крис

Анас Эльгафари

Бехзад Роушанраван

Анас Эльгафари

Анас Эльгафари

WYSIWYG

Анас Эльгафари

WYSIWYG

Анас Эльгафари

Анас Эльгафари

WYSIWYG

Анас Эльгафари

rmccloskey

Ответы (1)

Маконд

Как интерпретировать матрицу процентной идентичности, созданную Clustal Omega?

В чем разница между локальным и глобальным выравниванием последовательностей?

Каков современный алгоритм множественного выравнивания последовательностей?

Применение программирования ограничений для выравнивания/анализа последовательностей

Выравнивание кодонов через Python? [закрыто]

Какой инструмент можно использовать для сопоставления нескольких последовательностей белков с одной эталонной последовательностью?

Как сделать множественное выравнивание последовательностей?

на что указывает перекрытие последовательностей

Проверка маркеров с использованием транскриптома и геномных последовательностей, полученных из одной клетки

Рекомендуемый алгоритм кластеризации последовательностей для данных транскриптома