Каков наиболее подходящий способ нормализации данных об экспрессии генов?

Этот вопрос возникает из-за того, что при чтении статьи о нормализации данных экспрессии генов неясно, предназначен ли метод нормализации данных только для данных RNA-Seq или может применяться также для микрочипов.

Для данных RNA-Seq существуют методы нормализации, которые корректируют эффект содержания GC или другие эффекты на уровне генов. Имеет ли смысл учитывать эти эффекты при нормализации данных экспрессии генов на микрочипах?

Эти методы корректируют систематические ошибки во время эксперимента по секвенированию. Поскольку микрочип — это другой метод, то и предубеждения, от которых он страдает, будут другими. Существуют также методы коррекции смещения для микрочипов, но они отличаются от тех, которые используются для RNAseq. Их нельзя использовать взаимозаменяемо.

Ответы (2)

Нормализация данных выражений — большая тема, и регулярно публикуются новые методы. Когда вы подходите к чему-то подобному, вы обычно хотите посмотреть на людей, которые сделали то же самое, что и вы, а затем, как только вы поймете, почему они сделали то, что они сделали, вы можете спросить, что вам нужно сделать, чтобы ответить на ваши вопросы. Всегда помните о своем биологическом вопросе. Например, если вы измеряете QTL, вам нужно быть намного более осторожным, чем если вы просто ищете гены, затронутые нокаутирующей мутацией.

В общем, вы хотите использовать совершенно разные методы для данных RNAseq и Microarray. Два типа данных следуют совершенно разным распределениям (RNAseq дает вам данные подсчета, данные микроматрицы дают вам непрерывные сигналы) и имеют разные типы технического шума, влияющего на них (содержимое GC будет влиять на оба, но по-разному). Некоторые методы можно использовать в обоих случаях, но обычно они включают в себя преобразование данных в другую форму (например, сопоставление счетчиков с нормальным распределением). Пакет limma для R поддерживает и то, и другое, используя разные дистрибутивы, и является хорошим началом. Для RNAseq существуют более новые, предположительно лучшие методы, которые я лично не использовал.

Вообще говоря, для данных секвенирования РНК вы не хотите вносить поправку на содержание GC или другие эффекты уровня гена (например, длину), потому что вы сравниваете значения экспрессии между условиями ВНУТРИ гена. По этой причине рекомендуется использовать необработанные подсчеты, а не нормализованные значения, такие как FPKM. См. раздел 2.7 руководства пользователя edgeR .

Этот недавний тест, сравнивающий методы количественного определения RNA-seq, может быть достойным внимания.