Как выбрать гены до отношения log2 в матрице экспрессии генов RNASeq на основе медианы сигнала

Я хочу преобразовать матрицу экспрессии мРНК TCGA (в линейном формате данных) в логарифм 2 , а затем запустить отбор признаков (генов), выбрав 1000 наиболее изменчивых генов (гены с более высоким стандартным отклонением по образцам). Рабочий процесс следующий:

  1. Выберите «хорошие» гены перед соотношением log 2 (каждый ген со средним сигналом не менее t в p % выборок);
  2. Для выбранных генов запустите отношение log 2 , разделив каждый ген на его медианный сигнал, а затем log 2 - преобразование результирующей матрицы;
  3. Выберите 1000 наиболее изменчивых генов во всех образцах.

Как выбрать t и p ?

Кросс размещен на biostars: biostars.org/p/132301
@DevonRyan biostars не является частью сети SE. Это перекрестная публикация только при размещении на разных сайтах Stack Exchange. Мы вряд ли можем ожидать, что люди не будут писать где-либо еще в Интернете, если они хотят размещать сообщения здесь! Мы просто хотим избежать дублирования информации в сети SE.

Ответы (1)

Не существует правила фиксации t и p . Это зависит от уровня строгости, который вы ожидаете. Значение t зависит от того, что считается активной концентрацией; это не обязательно должно быть одинаковым для всех генов.

Это данные РНКсек; Я не понимаю, о каком «медианном» сигнале вы говорите. Для каждого образца ген будет иметь нормализованное значение экспрессии, которое обычно равно RPKM (количество прочтений на килобазу на миллион сопоставленных прочтений). Если у вас есть повторы для каждого образца, возьмите среднее значение, а не медиану.

Что касается расчета логарифмических отношений: всегда будьте осторожны с этим, особенно в случае нулей. Вместо логарифмических отношений вы можете использовать какую-то метрику усиления:

если
отношение = х/у
затем
усиление = (xy)/y

Вы также можете выполнить анализ основных компонентов данных и выбрать первые nосновные компоненты.

Хорошо для «медианы», это была ошибка. Я не понял: "Всегда будьте осторожны с этим, особенно в случае с нулями" - что вы имели в виду? Спасибо
В случае, если выражение равно нулю в одном образце, преобразование журнала даст вам NaN(не определено)