Использование секвенирования РНК для сравнения экспрессии генов у пациентов, а не между контрольными и экспериментальными условиями.

Я работаю с данными секвенирования РНК из Атласа генома рака TCGA и читал о том, как люди сравнивали уровни экспрессии генов, измеренные с помощью секвенирования РНК. Многие статьи, которые я читал, говорят о «дифференциальной экспрессии» для сравнения уровней экспрессии каждого гена в экспериментальных и контрольных условиях.

В данных TCGA у меня обычно есть когорта пациентов, у которых мРНК в их опухолях была секвенирована только один раз, поэтому нет динамики между экспериментальным и контрольным. Я заинтересован в том, чтобы выяснить, в каких опухолях пациентов экспрессия генов значительно выше, чем в остальной когорте, но мне не удалось найти литературу, описывающую такое сравнение. Я думаю, может быть, я могу применить существующие методы дифференциальной экспрессии к моей ситуации, но это кажется громоздким и не обязательно подходящим, поэтому я решил спросить сообщество здесь, есть ли лучший способ найти, какие члены когорты являются выбросами для определенных генов. .

Кроме того: все мои данные RNA-seq уже были нормализованы для меня RPKM. Мне посоветовали использовать RSEM вместо этого для сравнения экспрессии генов в нескольких образцах, но по логистическим причинам я, вероятно, застрял с уровнями экспрессии, нормализованными по RPKM.

По сути, я ищу наилучший способ сравнить экспрессию генов в образцах, чтобы определить, какие образцы имеют высокую или низкую экспрессию генов. Интуитивно я полагаю, что могу просто вычислить медианные z-показатели для уровней экспрессии каждого гена в моей когорте и рассмотреть всех с |z-показателем| больше 2, чтобы быть «выбросом», но я также не нашел литературы, поддерживающей такой подход.

Любые предложения, документы или советы будут с благодарностью.

Ответы (2)

Когда вы говорите RPKM, вы имеете в виду грубый RPKM или оценки, которые вы получаете, используя методы максимизации ожиданий, такие как запонки и eXpress?

Лучше, если вы получите значения RPKM или FPKM из одной из этих программ, потому что вы можете различать варианты расшифровки.

Я в основном использовал запонки и eXpress. Пакет Cufflinks лучше подходит для нескольких наборов данных. Вы можете использовать файлы cuffquant (которые используют SAM/BAM) для вычисления FPKM. Cuffquant также понадобится справочный GTFфайл. Cuffquant предоставляет двоичный .cxbфайл, который вы не можете прочитать напрямую. После того, как вы создали .cxbфайлы для всех образцов вашей когорты, передайте все эти файлы в cuffnorm. Он нормализует данные и выдаст вам значения FPKM для каждого гена в каждом образце в виде огромной таблицы.

Следующий пункт — какие гены вы хотите сравнить. Вы хотите сравнить известные онкогены, которые демонстрируют устойчивую положительную регуляцию при всех видах рака? На самом деле есть статья, в которой они это сделали (я дам вам ссылку, когда найду ее. Сейчас не могу вспомнить).

Затем вы можете увидеть, сколько из этих генов демонстрируют постоянную экспрессию в вашей когорте. По сути, вам нужно определить набор генов, прежде чем вы начнете изучать, у какого пациента наблюдается аномальная экспрессия.

Мне были предоставлены значения RPKM, которые вы получили бы от пакета Tuxedo, но я не имею представления о конкретном используемом конвейере. Я хотел бы увидеть документ, в котором сравниваются данные секвенирования РНК между онкогенами и раковыми заболеваниями; пожалуйста, опубликуйте ссылку, когда у вас будет возможность. Кроме того: мои сотрудники уже определили набор генов, на которых нужно сосредоточиться.
Я просто не помню, какой это был журнал, но я уверен, что читал его. Возможно, он посвящен микроРНК и взаимодействиям онкогенов при различных видах рака.
Тем не менее, если вы хотите сравнить дифференциальную экспрессию разных видов рака, вы можете получить ее, выполнив анализ основных компонентов данных RNAseq для разных видов рака из TCGA.
Я планирую использовать PCA позже, чтобы увидеть, какие паттерны экспрессии оказывают наибольшее влияние на клинические данные. Однако в настоящее время я сфокусирован на сравнении небольшого набора генов у пациентов с одинаковым раком (думаю, мне следовало включить это в свой первоначальный вопрос). Не беспокойтесь о статье, я никогда не думал искать статьи, сравнивающие экспрессию при разных типах рака, и таким образом я нашел полезную литературу.

Похоже, вы хотите иметь общий подход для сравнения сигнатур экспрессии генов.

В недавней статье Кларка и др . используется элегантный геометрический подход. Идея состоит в том, чтобы выполнить уменьшение размерности (разложение по единственному значению) данных выражения, а затем вычислить косинусное расстояние между сигнатурами выражения гена в сокращенном пространстве.

Если вы примените эту методологию, вы сможете сгруппировать пациентов с очень похожими сигнатурами (небольшие расстояния) и выявить выбросы (большие расстояния). Более того, на основе нагрузок от разложения по сингулярным числам вы сможете определить, какие гены определяют различия в измеренных расстояниях, и, таким образом, определить «относительно дифференциально выраженные гены».