Какой-нибудь инструмент для сопоставления данных последовательности всего генома с другим геномом и присвоения областям экзонов более высокой оценки?

Я хочу сопоставить данные WGS от нескольких млекопитающих с одной ссылкой, такой как последовательность генома человека. Поскольку в большинстве случаев экзоны должны сохраняться и сплайсироваться одинаково, а интроны должны различаться, я хочу использовать инструмент, учитывающий аннотацию экзона и интрона.

Иными словами, совпадениям в экзонной области следует придавать более высокий вес, чем совпадениям в интронных областях.

Кроме того, когда считываемая пара сопоставляется с двумя экзонами, размер вставки должен быть более гибким, поскольку длина интрона может варьироваться у разных млекопитающих. Поскольку вставка библиотеки для коротких библиотек занимает менее 2 КБ, более распространенной ситуацией должно быть одно чтение на экзоне, а другое на интроне.

Это отличается от RNA-seq, поскольку я использую данные WGS для всего генома, поэтому в считываниях участвуют как экзоны, так и интроны. И я хочу привести их в соответствие с эталонной последовательностью человека.

Программное обеспечение SeqSphere и DNAstar Lasergene хорошо

Ответы (1)

Если вы не пытаетесь собрать, а просто сопоставить каждое чтение с геномом, вы можете использовать exonerate. На платформе Unix/Linux после установки запустите что-то вроде:

exonerate -m genome2genome WGS.fasta genome.fasta > out.txt 

Из exonerateруководства:

          genome2genome
                 This  model  is  similar  to  the  cod‐
                 ing2coding  model,  except  introns are
                 modelled on both sequences.  (not work‐
                 ing well yet)

Однако я бы порекомендовал сопоставить эталонный набор данных кДНК, а не весь геном. В этом случае вы должны использовать это вместо этого:

exonerate -m cdna2genome genome_cdna.fasta WGS.fasta > out.txt 

Из реабилитационной инструкции:

          cdna2genome
                 This   combines   properties   of   the
                 est2genome and coding2genome models, to
                 allow modeling of an whole cDNA where a
                 central coding region can be flanked by
                 non-coding UTRs.  When  the  CDS  start
                 and  end  is  known it may be specified
                 using  the  --annotation  option   (see
                 below)  to permit only the correct cod‐
                 ing region to appear in the alignemnt.