В чем разница между последовательностью, чтением и контигом генетического материала?

Может ли кто-нибудь объяснить различия между последовательностями, чтениями и контигами генетического материала, такого как ДНК, если возможно, на примере?

Я новичок в биоинформатике, и я не нашел убедительных ответов на все эти понятия в Интернете.

Добро пожаловать в Биологию! Этот вопрос относится к конкретной области исследований, такой как ДНК?
Да, я так думаю. Что касается ДНК, последовательность ДНК
Разве контиги не являются короткими для смежных последовательностей п.н.?

Ответы (2)

Мое понимание этих трех слов следующее:

  • последовательность — это общее название, описывающее порядок биологических букв (ДНК/РНК или аминокислоты). И контиги, и риды представляют собой последовательности ДНК/РНК или аа.

  • чтения - это просто сокращение для последовательного чтения. Обычно секвенированные чтения относятся к некоторой цифровой информации, полученной от секвенатора (например, Illumina MySeq) и сохраненной в fastqфайле с показателями качества на основе. Чтения обычно короткие. Однако «короткое» меняется быстро. Прямо сейчас MySeq производит считывания длиной от 50 до 150 пар оснований (bp). Из одного прогона (это действительно зависит от прогона) вы можете получить миллионы чтений, где каждому чтению будет установлен размер битов, например, 100 битов в длину. Все операции чтения хранятся в одном fastqфайле для каждой реплики, при этом все операции чтения в этом файле обычно имеют одинаковый размер, например, все 5 миллионов операций чтения имеют длину 100 п.н.

Ваша первая задача как биоинформатика — определить, откуда берутся эти данные . В зависимости от цели эксперимента и от того, какое секвенирование вы проводили, например ДНК-секвенирование или РНК-секвенирование, вы можете столкнуться или не столкнуться с контигами .

  • контиги — это просто чтения, которые были собраны вместе. Например, если вы делаете транскриптомику de novo . Тогда вы бы:

    1. очистите транскрипт от ткани и отправьте его на секвенирование
    2. получить файлы fastq с последовательным чтением, которое является коротким чтением (например, 100 п.н.)
    3. собрать эти 100 п.н. чтения в более длинный контиг , который, надеюсь, будет напоминать вашу индивидуальную расшифровку
@vvilp без проблем. Кроме того , вот классный pdf-файл, который я нашел где-то в Интернете helix.biology.mcmaster.ca/3S03.pdf . это может помочь вам в изучении биоинформатики
Я взглянул на PDF. Хороший учебник! Спасибо
@vvilp Я рад, что это помогло. кстати, вот ссылка biology.stackexchange.com/questions/31546/… , где я нашел этот pdf-файл. Там может быть еще немного полезной информации для вашей биоинформации

Я собираюсь сказать то же самое, что и @Serine, но немного в другом контексте. Давайте возьмем пример, когда вы хотите сравнить курящих людей с некурящими.

В этом контексте вы хотели бы взять последовательность ДНК курящих людей. Однако из-за технологических ограничений вы не получите ни одной последовательности ДНК из секвенатора. Вы получите миллионы коротких перекрывающихся последовательностей ДНК, известных как чтения.

Нам нужен ассемблер для «картирования» прочтений и сравнения их с эталонным геномом. В этом примере эталонным геномом мог быть HG38 человека.

Ассемблер должен будет объединить перекрывающиеся чтения в набор неперекрывающихся областей, известных как контиги.

Обычные элайнеры не собирают риды.
Извините, я имел в виду отображение.
Спасибо, студент Т. Теперь я знаю основную разницу между чтением и контигами.