Биологическое значение длины чтения

У меня есть несколько файлов FASTQ в двух наборах данных, которые представляют собой последовательности из региона 16Srna. Первый набор данных представляет собой ампликоны из области V4, а второй — из области V3-V4.

Однако все чтения имеют длину 250 нуклеотидов, при этом одна область строго включена в другую. Так каков же биологический смысл длины?

Я ожидаю, что чтения будут иметь ту же длину, что и секвенированная/амплифицированная область. Я не знаю размер регионов, но один явно длиннее другого.

Спасибо (я подумал, что лучше спросить здесь, а не на bioinformatics.stackexchange.com)

Это абсолютно по теме здесь, я просто хотел, чтобы вы знали, что это также будет по теме биоинформатики , как было решено в этой метапотоке . Какой из двух сайтов вы выберете, полностью зависит от вас.
Не могли бы отредактировать свой вопрос и уточнить, что вам кажется странным? Какую продолжительность чтения вы ожидали? То, что вы описываете, стандартно, но вас что-то смущает. Что это?
Я отредактировал свой вопрос после комментария @terdon.

Ответы (2)

Длина чтения не имеет абсолютно никакого отношения к тому, что вы секвенируете. Это характеристика используемой вами технологии секвенирования. Методы секвенирования NGS обычно дают такое короткое чтение, которое вы видите. Длина считывания не меняется, потому что вы секвенируете более длинную молекулу. Вы все равно получите ~ 250 нуклеотидов, даже если секвенируете весь геном. Ваши показания примерно такие ( источник изображения ):

изображение, показывающее чтения, выровненные с геномом

Таким образом, подавляющее большинство ваших 250 nt перекрываются и охватывают несколько разные части вашей целевой последовательности. Это одна из причин, по которой анализ NGS не является тривиальным. Первым шагом в любом анализе NGS является сборка ваших прочтений в файл bam, который охватывает вашу целевую область. Если вам нужна помощь в этом, зайдите на http://bioinformatics.stackexchange.com .

Спасибо за ответ. Но есть кое-что, чего я не понимаю: с этой техникой «разрезания молекулы», которая должна быть секвенированием, куда вы помещаете свои штрих-коды? (при наличии нескольких образцов из разных источников)
@MrSnake в конце чтения, но это действительно должен быть отдельный вопрос.

Насколько я понимаю, если считывания поступают прямо с секвенатора, все они будут одинаковой длины. Это соответствует количеству циклов секвенирования, которое машина должна выполнять. Это не имеет биологического смысла.

Я не знаю, что прочитает машина, если она прочитает больше, чем длина фрагмента, подвергнутого секвенированию.

Если фрагменты короче, чем то, что считывает секвенсор, некоторые адаптеры подготовки библиотеки необходимо удалить из последовательностей, чтобы восстановить фактические фрагменты. Тогда вы сможете увидеть реальную длину фрагмента.

Если фрагменты длиннее, чем читает секвенсор, см. ответ @terdon.