Я хочу преобразовать матрицу экспрессии мРНК TCGA (в линейном формате данных) в логарифм 2 , а затем запустить отбор признаков (генов), выбрав 1000 наиболее изменчивых генов (гены с более высоким стандартным отклонением по образцам). Рабочий процесс следующий:
Как выбрать t и p ?
Не существует правила фиксации t и p . Это зависит от уровня строгости, который вы ожидаете. Значение t зависит от того, что считается активной концентрацией; это не обязательно должно быть одинаковым для всех генов.
Это данные РНКсек; Я не понимаю, о каком «медианном» сигнале вы говорите. Для каждого образца ген будет иметь нормализованное значение экспрессии, которое обычно равно RPKM (количество прочтений на килобазу на миллион сопоставленных прочтений). Если у вас есть повторы для каждого образца, возьмите среднее значение, а не медиану.
Что касается расчета логарифмических отношений: всегда будьте осторожны с этим, особенно в случае нулей. Вместо логарифмических отношений вы можете использовать какую-то метрику усиления:
если отношение = х/у затем усиление = (xy)/y
Вы также можете выполнить анализ основных компонентов данных и выбрать первые n
основные компоненты.
NaN
(не определено)
Девон Райан
тердон