Может ли кто-нибудь объяснить различия между последовательностями, чтениями и контигами генетического материала, такого как ДНК, если возможно, на примере?
Я новичок в биоинформатике, и я не нашел убедительных ответов на все эти понятия в Интернете.
Мое понимание этих трех слов следующее:
последовательность — это общее название, описывающее порядок биологических букв (ДНК/РНК или аминокислоты). И контиги, и риды представляют собой последовательности ДНК/РНК или аа.
чтения - это просто сокращение для последовательного чтения. Обычно секвенированные чтения относятся к некоторой цифровой информации, полученной от секвенатора (например, Illumina MySeq) и сохраненной в fastq
файле с показателями качества на основе. Чтения обычно короткие. Однако «короткое» меняется быстро. Прямо сейчас MySeq производит считывания длиной от 50 до 150 пар оснований (bp). Из одного прогона (это действительно зависит от прогона) вы можете получить миллионы чтений, где каждому чтению будет установлен размер битов, например, 100 битов в длину. Все операции чтения хранятся в одном fastq
файле для каждой реплики, при этом все операции чтения в этом файле обычно имеют одинаковый размер, например, все 5 миллионов операций чтения имеют длину 100 п.н.
Ваша первая задача как биоинформатика — определить, откуда берутся эти данные . В зависимости от цели эксперимента и от того, какое секвенирование вы проводили, например ДНК-секвенирование или РНК-секвенирование, вы можете столкнуться или не столкнуться с контигами .
контиги — это просто чтения, которые были собраны вместе. Например, если вы делаете транскриптомику de novo . Тогда вы бы:
Я собираюсь сказать то же самое, что и @Serine, но немного в другом контексте. Давайте возьмем пример, когда вы хотите сравнить курящих людей с некурящими.
В этом контексте вы хотели бы взять последовательность ДНК курящих людей. Однако из-за технологических ограничений вы не получите ни одной последовательности ДНК из секвенатора. Вы получите миллионы коротких перекрывающихся последовательностей ДНК, известных как чтения.
Нам нужен ассемблер для «картирования» прочтений и сравнения их с эталонным геномом. В этом примере эталонным геномом мог быть HG38 человека.
Ассемблер должен будет объединить перекрывающиеся чтения в набор неперекрывающихся областей, известных как контиги.
АлисаД
ввилп
пользователь15814