Как выбрать гены до отношения log2 в матрице экспрессии генов RNASeq на основе медианы сигнала

Question

Как выбрать гены до отношения log2 в матрице экспрессии генов RNASeq на основе медианы сигнала

ткга
Биология
статистика
биоинформатика
генная экспрессия

gc5

Я хочу преобразовать матрицу экспрессии мРНК TCGA (в линейном формате данных) в логарифм ₂ , а затем запустить отбор признаков (генов), выбрав 1000 наиболее изменчивых генов (гены с более высоким стандартным отклонением по образцам). Рабочий процесс следующий:

Выберите «хорошие» гены перед соотношением log ₂ (каждый ген со средним сигналом не менее t в p % выборок);
Для выбранных генов запустите отношение log ₂ , разделив каждый ген на его медианный сигнал, а затем log ₂ - преобразование результирующей матрицы;
Выберите 1000 наиболее изменчивых генов во всех образцах.

Как выбрать t и p ?

Девон Райан

Кросс размещен на biostars: biostars.org/p/132301

тердон

@DevonRyan biostars не является частью сети SE. Это перекрестная публикация только при размещении на разных сайтах Stack Exchange. Мы вряд ли можем ожидать, что люди не будут писать где-либо еще в Интернете, если они хотят размещать сообщения здесь! Мы просто хотим избежать дублирования информации в сети SE.

Ответы (1)

Как выбрать гены до отношения log2 в матрице экспрессии генов RNASeq на основе медианы сигнала

Кросс размещен на biostars: biostars.org/p/132301
@DevonRyan biostars не является частью сети SE. Это перекрестная публикация только при размещении на разных сайтах Stack Exchange. Мы вряд ли можем ожидать, что люди не будут писать где-либо еще в Интернете, если они хотят размещать сообщения здесь! Мы просто хотим избежать дублирования информации в сети SE.

WYSIWYG · Answer 1

Не существует правила фиксации t и p . Это зависит от уровня строгости, который вы ожидаете. Значение t зависит от того, что считается активной концентрацией; это не обязательно должно быть одинаковым для всех генов.

Это данные РНКсек; Я не понимаю, о каком «медианном» сигнале вы говорите. Для каждого образца ген будет иметь нормализованное значение экспрессии, которое обычно равно RPKM (количество прочтений на килобазу на миллион сопоставленных прочтений). Если у вас есть повторы для каждого образца, возьмите среднее значение, а не медиану.

Что касается расчета логарифмических отношений: всегда будьте осторожны с этим, особенно в случае нулей. Вместо логарифмических отношений вы можете использовать какую-то метрику усиления:

если
отношение = х/у
затем
усиление = (xy)/y

Вы также можете выполнить анализ основных компонентов данных и выбрать первые nосновные компоненты.

Хорошо для «медианы», это была ошибка. Я не понял: "Всегда будьте осторожны с этим, особенно в случае с нулями" - что вы имели в виду? Спасибо
В случае, если выражение равно нулю в одном образце, преобразование журнала даст вам NaN(не определено)

Как выбрать гены до отношения log2 в матрице экспрессии генов RNASeq на основе медианы сигнала

gc5

Девон Райан

тердон

Ответы (1)

WYSIWYG

gc5

WYSIWYG

Использование секвенирования РНК для сравнения экспрессии генов у пациентов, а не между контрольными и экспериментальными условиями.

Какую информацию можно извлечь из данных РНК-секвенирования во времени?

Сравнение уровней экспрессии генов между контролем и болезнью в разные моменты времени

Объединение данных об экспрессии генов двух видов

Как подтвердить регуляторные взаимодействия, выведенные из данных об экспрессии генов?

Сравнение временных рядов экспрессии генов in vitro и in vivo

Инструменты, использующие матрицу родства для филогенетической декорреляции

Базы данных для графов сети регуляции генов?

Несколько транскриптов, совпадающих с одним и тем же геном в de novo, собрали данные секвенирования РНК, но значения FPKM различаются?

Достоверное сравнение экспрессии генов между несколькими генами в нескольких клеточных линиях