Я хочу сопоставить данные WGS от нескольких млекопитающих с одной ссылкой, такой как последовательность генома человека. Поскольку в большинстве случаев экзоны должны сохраняться и сплайсироваться одинаково, а интроны должны различаться, я хочу использовать инструмент, учитывающий аннотацию экзона и интрона.
Иными словами, совпадениям в экзонной области следует придавать более высокий вес, чем совпадениям в интронных областях.
Кроме того, когда считываемая пара сопоставляется с двумя экзонами, размер вставки должен быть более гибким, поскольку длина интрона может варьироваться у разных млекопитающих. Поскольку вставка библиотеки для коротких библиотек занимает менее 2 КБ, более распространенной ситуацией должно быть одно чтение на экзоне, а другое на интроне.
Это отличается от RNA-seq, поскольку я использую данные WGS для всего генома, поэтому в считываниях участвуют как экзоны, так и интроны. И я хочу привести их в соответствие с эталонной последовательностью человека.
Если вы не пытаетесь собрать, а просто сопоставить каждое чтение с геномом, вы можете использовать exonerate
. На платформе Unix/Linux после установки запустите что-то вроде:
exonerate -m genome2genome WGS.fasta genome.fasta > out.txt
Из exonerate
руководства:
genome2genome
This model is similar to the cod‐
ing2coding model, except introns are
modelled on both sequences. (not work‐
ing well yet)
Однако я бы порекомендовал сопоставить эталонный набор данных кДНК, а не весь геном. В этом случае вы должны использовать это вместо этого:
exonerate -m cdna2genome genome_cdna.fasta WGS.fasta > out.txt
Из реабилитационной инструкции:
cdna2genome
This combines properties of the
est2genome and coding2genome models, to
allow modeling of an whole cDNA where a
central coding region can be flanked by
non-coding UTRs. When the CDS start
and end is known it may be specified
using the --annotation option (see
below) to permit only the correct cod‐
ing region to appear in the alignemnt.
ВасяАлк