Я работаю с файлами fastq, содержащими чтения NGS для некоторых участков ДНК человека. Эталонный геном - hg19. У меня было два файла fastq (парные). Я создал файлы выравнивания BAM. Я использовал "bwa" и samtools, чтобы найти возможную область целевого гена (chr7:55,242,376-55,242,574,). Это соответствует области гена EGFR.
Вот скриншот области гена
А вот и скриншот области праймера
У меня также есть список праймеров и обратных праймеров:
FORWARD
1. TTGCCAGTTAACGTCTTCCTTCTCTCTCTG
2. CCCTTGTCTCTGTGTTCTTGTCCCCCCCA
3. TGATCTGTCCCTCACAGCAGGGTCTTCTCT
4. CACACTGACGTGCCTCTCCCTCCCTCCA
REVERSE
1. GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA
2. CCCCACCAGACCATGAGAGGCCCTGCGGCC
3. TGACCTAAAGCCACCTCCTTA
4. CCGTATCTCCCTTCCCTGATTA
И у меня есть адаптеры
ADAPTORS 1
AAGACTCGGCAGCATCTCCA
ADAPTORS 2
GCGATCGTCACTGTTCTCCA
Я должен ответить на следующие вопросы:
1) Какова структура каждого прочитанного (адаптер+праймер+амплифицированная область)? Прямой праймер очевиден и соответствует первому праймеру в списке.
TTGCCAGTTAACGTCTTCCTTCTCTCTCTG
Итак, почему у нас есть три других праймера? Я не понимаю. А как же правильная обратная грунтовка?
По-видимому, это комплементарная последовательность концевой области
GAGAAAAGGTGGGCCTGAGGTTCAGAGCCA
Наконец, какой адаптер используется?
Является ли [АДАПТОР1 - ПРАЙМЕР1 - УСИЛЕННАЯ ОБЛАСТЬ] правильным ответом? Есть ли другие возможности?
2) % прочтений, отображающих геном человека? а как же без карты?
Не могли бы вы дать мне некоторые подсказки о том, как ответить на этот вопрос.
Мне просто нужны некоторые подсказки, я хочу сделать это сам.
Спасибо большое за помощь.
Вы задали здесь довольно много вопросов. Я постараюсь ответить на часть из них.
Чтобы ответить на ваш вопрос, я начал с просмотра генома UCSC и выбрал BLAT в раскрывающемся меню инструментов. Затем, передавая ваши последовательности праймеров в виде запросов, мы можем ясно видеть, где они сопоставляются с эталонным геномом.
Глядя на рисунок выше, я могу предположить, что ваши данные получены в результате целевого эксперимента по секвенированию (экзом, панель генов и т. д.); где у вас есть праймеры вокруг каждого экзона EGFR на двух цепях, на 5'-конце последовательности экзонов на каждой цепи (подумайте о ДНК-полимеразе, действующей в ПЦР для амплификации количества молекул ДНК перед секвенированием).
Что касается адаптера, я не уверен, о каком чтении вы говорите. Можете ли вы уточнить, пожалуйста?
О проценте сопоставленных и несопоставленных чтений вы можете использовать bamtools.
Пример использования:
/user/me/src/bamtools/bin/bamtools-2.3.0 stats -insert -in my-sequence-file.bam
Пример вывода:
Всего прочитано: 103277668
Сопоставленные чтения: 90088436 (87,2293%)
Передняя ветвь: 58136735 (56,2917%)
Обратная нить: 45140933 (43,7083%)
Неудачный контроль качества: 6529806 (6,32257%)
Дубликаты: 0 (0%)
Парные чтения: 103277668 (100%)
«Правильные пары»: 87439672 (84,6646%)
Сопоставлены обе пары: 87910438 (85,1205%)
Чтение 1: 51638834
Чтение 2: 51638834
Одиночки: 2177998 (2,10888%)
Средний размер вставки (абсолютное значение): 6317,39
Средний размер вставки (абсолютное значение): 301
Новичок
Новичок
Нушин