У меня есть набор данных de novo, собранных наборами данных RNA-seq для разных типов образцов.
При BLAST многие совпадения отдельных транскриптов совпадают с одним и тем же геном в эталонном геноме. Однако каждая отдельная стенограмма имеет свое уникальное значение FPKM.
Во-первых, я озадачен тем, как можно иметь несколько последовательностей одного и того же гена с разными значениями FPKM — и, конечно же, мне также интересно, какой подход будет подходящим для последующего анализа. Должен ли я просто складывать значения FPKM для последовательностей с одинаковыми совпадениями?
Если количественная оценка выполняется на уровне транскриптов, каждый идентифицированный транскрипт данного гена будет иметь разное количество прочтений, приписываемых ему, и, следовательно, другое значение RPKM.
Для последующего анализа вы можете продолжить на уровне стенограммы.
Я думаю, что вы не можете суммировать значения FPKM напрямую, потому что они обратно пропорциональны длине расшифровки («K» означает «килобазой»). Если вы хотите провести последующий анализ на уровне генов и использовать значения FPKM, вам придется умножить значения FPKM транскриптов на соответствующие длины транскриптов перед суммированием. Затем вам придется разделить эту сумму на длину гена или что-то в этом роде.
Алекслок