Как выглядят парные концевые показания Illumina HiSeq/MiSeq?

Насколько я понимаю, парные чтения с платформ Illumina HiSeq/MiSeq выглядят примерно так:

R1:
    AAAAAACCCCCC
R2:
    GGGGGGTTTTTT

Где чтения, найденные в R2, являются обратным дополнением тех, что найдены в R1. Однако это не относится к моим данным секвенирования. Если это поможет, у меня есть пара считываний из одного из моих запусков MiSeq ниже.

R1:
@M01814:86:000000000-A6MU9:1:1101:15397:1339 1:N:0:2
TACTCGCACCTATCCGGCACAGCAACACCATCTGGGGCTGAATCGCAATAGCATCTCTCACTTCCTCCATATCAGATTGCTCAAGGCAAGCACTACGCTGCAGTGCCCTCCACTCCCAATTCCCTGATGCTGGTCGTAACTTGCCACACCA
+
>>AA?BBBBBFFGGG2EEEGFBGHHHGA2FGHBGHF2EE?GHGHHFFEEHDGHEFGF5FEEFBGHGBCB5FHHH5F553@434FF31G11??233B1/1/?333B?3FB?/B24B2/2B2?44?3?23333B223<>@0CB22@2@F0/?/

R2:
@M01814:86:000000000-A6MU9:1:1101:15397:1339 2:N:0:2
TAAGGGGCCTAGAACAGGCACCATACATTCAATTGGCTGTGGCAAGTAACAACCAGCATCAGGGAATGTGGAGTGGAGGGCACTGCAGCGAATTGCTTGCCTTGAACAATCTTATATGGGGGAAGTAGACGAACCAATGTGGAGTCAGCCC
+
>AA>>>ADDAFFGGGGG4FGGGFHFHFHHHFHHHB3B32EFBGGE25FGHHHHACEGG533BAGFFF355331BG1@1>EF1E23F333/>//134B43?F34B3334B334444?443B?/<C/23333////<0/<11111/?01?G0?

Для справки, это обратное дополнение к R2:

GGGCTGACTCCACATTGGTTCGTCTACTTCCCCCATATAAGATTGTTCAAGGCAAGCAATTCGCTGCAGTGCCCTCCACTCCACATTCCCTGATGCTGGTTGTTACTTGCCACAGCCAATTGAATGTATGGTGCCTGTTCTAGGCCCCTTA

Это выравнивание (с BLAST; выравнивание показано только для HSP):

                                                           60 148
                                                           | |
TACTCGCACCTATCCGGCACAGCAACACCATCTGGGGCTGAATCGCAATAGCATCTCTCTCACTTCCTCCATATCAGATTGCTCAAGGCAAGCACTACGCTGCAGTGCCCTCCACTCCCAATTCCCTGATGCTGGTCGTAACTTGCCACACCA
                                                           |||||| |||||| |||||| |||||||||||| | ||||||||||||||||||||| |||||||||||||||| || ||||||||||
                                  GGGCTGACTCCACATTGGTTCGTCTACTTCCCCCATAATAAGATTGTTCAAGGCAAGCAATTCGCTGCAGTGCCCTCCACTCCACATTCCCTGATGCTGGTTGTTACTTGCCACAGCCAATTGAATGTATGGTGCCTGTTCTAGGCCCCTTA
                                                           | |
                                                           126 38
Каков был размер библиотеки и какова длина чтения?
Химия MiSeq составляет 150 циклов, а размер фрагмента составляет ровно 150 п.н.
Вы уверены, что размер фрагмента точно 150bp? Обычно у вас есть распределение размера фрагмента.
Сколько таких прочтений; вы удалили последовательности адаптера?
Я уверен, что размер фрагмента и последовательности адаптера удалены, но спасибо, что взорвали это, это больше похоже на перекрытие, которое я смог заставить. Может быть, мне просто нужно допустить гораздо больше несоответствий, чем считалось ранее.

Ответы (2)

Где чтения, найденные в R2, являются обратным дополнением тех, что найдены в R1.

Это утверждение кажется неверным.

Парные считывания происходят с противоположных концов фрагмента (причину этого вы можете узнать из видео Illumina ). Если размер вставки составляет 150 п.н., длина считывания обычно составляет ~60 п.н., поскольку показатель качества после 60-й п.н. неприемлемо низок. В этом случае длина R1 составляет ~60 п.н. и составляет 5'3', длина R2 составляет ~60 п.н. и составляет 3'5'. Когда количества прочтений достаточно, чтобы покрыть пробел, они образуют контиг.

Вот иллюстрация с сайта Illumina :С сайта Иллюмина

Длина ваших фрагментов немного колеблется, поэтому чтения точно не перекрываются. Есть ли причина, по которой вы тратите время и деньги на второе чтение, когда первое чтение дает вам почти ту же самую информацию о последовательности?

Длины этих фрагментов не колеблются (это не просто фрагментированная ДНК). И да, парные чтения концов, вероятно, будут необходимы.