конституция области чтения и гена (IGV)

Я работаю с файлами fastq, содержащими чтения NGS для некоторых участков ДНК человека. Эталонный геном - hg19. У меня было два файла fastq (парные). Я создал файлы выравнивания BAM. Я использовал "bwa" и samtools, чтобы найти возможную область целевого гена (chr7:55,242,376-55,242,574,). Это соответствует области гена EGFR.

Вот скриншот области гена

ЭГФР

А вот и скриншот области праймерагрунтовка

У меня также есть список праймеров и обратных праймеров:

FORWARD
1. TTGCCAGTTAACGTCTTCCTTCTCTCTCTG
2. CCCTTGTCTCTGTGTTCTTGTCCCCCCCA
3. TGATCTGTCCCTCACAGCAGGGTCTTCTCT
4. CACACTGACGTGCCTCTCCCTCCCTCCA

REVERSE
1. GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA
2. CCCCACCAGACCATGAGAGGCCCTGCGGCC
3. TGACCTAAAGCCACCTCCTTA
4. CCGTATCTCCCTTCCCTGATTA

И у меня есть адаптеры

ADAPTORS 1
AAGACTCGGCAGCATCTCCA

ADAPTORS 2
GCGATCGTCACTGTTCTCCA

Я должен ответить на следующие вопросы:

1) Какова структура каждого прочитанного (адаптер+праймер+амплифицированная область)? Прямой праймер очевиден и соответствует первому праймеру в списке.

TTGCCAGTTAACGTCTTCCTTCTCTCTCTG

Итак, почему у нас есть три других праймера? Я не понимаю. А как же правильная обратная грунтовка?

По-видимому, это комплементарная последовательность концевой области

GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA

Наконец, какой адаптер используется?

Является ли [АДАПТОР1 - ПРАЙМЕР1 - УСИЛЕННАЯ ОБЛАСТЬ] правильным ответом? Есть ли другие возможности?

2) % прочтений, отображающих геном человека? а как же без карты?

Не могли бы вы дать мне некоторые подсказки о том, как ответить на этот вопрос.

Мне просто нужны некоторые подсказки, я хочу сделать это сам.

Спасибо большое за помощь.

Ответы (1)

Вы задали здесь довольно много вопросов. Я постараюсь ответить на часть из них.

Чтобы ответить на ваш вопрос, я начал с просмотра генома UCSC и выбрал BLAT в раскрывающемся меню инструментов. Затем, передавая ваши последовательности праймеров в виде запросов, мы можем ясно видеть, где они сопоставляются с эталонным геномом.

введите описание изображения здесь

Глядя на рисунок выше, я могу предположить, что ваши данные получены в результате целевого эксперимента по секвенированию (экзом, панель генов и т. д.); где у вас есть праймеры вокруг каждого экзона EGFR на двух цепях, на 5'-конце последовательности экзонов на каждой цепи (подумайте о ДНК-полимеразе, действующей в ПЦР для амплификации количества молекул ДНК перед секвенированием).

Что касается адаптера, я не уверен, о каком чтении вы говорите. Можете ли вы уточнить, пожалуйста?

О проценте сопоставленных и несопоставленных чтений вы можете использовать bamtools.

Пример использования:

/user/me/src/bamtools/bin/bamtools-2.3.0 stats -insert -in my-sequence-file.bam

Пример вывода:

Всего прочитано: 103277668

Сопоставленные чтения: 90088436 (87,2293%)

Передняя ветвь: 58136735 (56,2917%)

Обратная нить: 45140933 (43,7083%)

Неудачный контроль качества: 6529806 (6,32257%)

Дубликаты: 0 (0%)

Парные чтения: 103277668 (100%)

«Правильные пары»: 87439672 (84,6646%)

Сопоставлены обе пары: 87910438 (85,1205%)

Чтение 1: 51638834

Чтение 2: 51638834

Одиночки: 2177998 (2,10888%)

Средний размер вставки (абсолютное значение): 6317,39

Средний размер вставки (абсолютное значение): 301

Большое тебе спасибо. Все они используют одни и те же 2 адаптера. Это возможно? Мне это кажется странным.
только один последний вопрос Как вы передаете свои последовательности праймеров в виде запросов в BLAT? И получить такую ​​​​красивую фигуру
Рад, что смог помочь. Я сгенерировал ввод в формате fasta с вашими восемью последовательностями. Затем, после выполнения BLAT, выберите ссылку браузера для одной из ваших последовательностей, несколько раз уменьшите масштаб в 10 раз, чтобы все последовательности запросов находились в диапазоне. По умолчанию в браузере генома отображается переполненный экран. Вы можете нажать кнопку «скрыть все» под изображением генома, а затем установить параметры BLAT и refGene / refSeq на полные.