Путаница математиков в отношении параметрических тестов ttt для данных экспрессии генов

МБ

Путаница математиков в отношении параметрических тестов ttt для данных экспрессии генов

Я математик, пытающийся кое-что проверить на данных об экспрессии генов, и поэтому я бегло просматриваю различные статьи, такие как Sotiriou et. др. понять, что обычно делают с такими наборами данных. Несколько вещей меня смущают; в частности, параграф в Sotiriou et. др. читает:

«Клинические параметры, такие как статус ER, [...] влияют на поведение рака молочной железы. Мы спросили, связаны ли эти клинические / патологические характеристики с дифференциальной экспрессией генов. может разделить ER+ и ER- опухоли молочной железы (P <0,001)».

Поскольку разделение ER +/- на основе экспрессии генов является одной из нескольких вещей, которые мне интересно попытаться достичь с помощью новых методов, я пытался понять, что именно подразумевается под вышеприведенным параграфом. Подводя итоги статьи, можно сказать, что у 99 пациентов было 7650 значений экспрессии зонда и по одному значению ER+/- у каждого. В статье предлагается определить, какие из этих 7650 зондов успешно разделяют набор данных на ER+ и ER-.

Я проверил приведенный выше абзац соседним статистиком, и он ни за что не мог понять, что было сделано, и даже не слышал о такой вещи, как «параметрический t-критерий». Это заставляет меня подозревать, что этот термин специфичен для биологии, поэтому я спрашиваю: что имеется в виду? Мне (и ему) также неясно, что означает P-значение в этом контексте.

Я надеюсь, что объем этого вопроса не слишком широк. Конечно, я хочу избежать просьбы «объясните мне, постороннему, эту статью, пожалуйста»; Я действительно считаю, что приведенный выше абзац относительно самодостаточен в контексте экспрессии генов.

Использованная литература:

  1. Сотириу и др. al., Классификация рака молочной железы и прогноз на основе профилей экспрессии генов из популяционного исследования.

Побитовый

Я понимаю это следующим образом:

Для каждого датчика у вас есть два набора измерений, один для ER+ и один для ER-. Что вы делаете, так это T-тест (насколько я понимаю, «параметрический» просто подчеркивает, что T-тест является параметрическим тестом) для этих двух наборов, проверяя, значительно ли отличается их среднее значение (они называют это «разделенным» ). Вы повторяете этот тест для всех датчиков 7650 и получаете набор p-значений 7650. Затем вы выполняете некоторую коррекцию множественного тестирования, такую ​​как коррекция Бонферрони (я не проверил в статье, сделали ли они это, но они, очевидно, должны). Наконец, они обнаружили, что 606 p-значений являются значимыми (для некоторого выбора порога), предполагая, что они могут «отделить» ER+ от ER-.

Как вычислительный биолог, я бы посоветовал вам обратить особое внимание на статьи по биоинформатике, если вы хотите разработать новые методы, поскольку анализ в статьях по «чистой биологии» часто может отсутствовать и не даст вам хорошего представления о состоянии дел. -методы художественного анализа. В частности, для вопроса об отделении групп от экспрессии генов вам следует обратиться к области машинного обучения, поскольку оно широко применялось для решения этой проблемы.

пользователь560

После проверки бумаги единственная корректировка, которую они внесли (без объяснений), — это понизить критическое значение альфа до 0,001 вместо обычных 0,05. При испытаниях ~7600 т эти результаты весьма сомнительны. Даже с относительно простой поправкой Бонферрони критическое значение альфа должно быть 0,05/7600 ~= 6,6 * 10^-6.

Побитовый

@leonardo звучит подозрительно ... как я уже сказал, я бы не стал рассматривать это как пример хорошего анализа данных. Хотя я считаю, что с тех пор, как эта статья была опубликована, некоторые аспекты анализа в статьях по биологии стали лучше, включая множественные исправления тестов.

МБ

Спасибо! Кто-нибудь из вас знает об опубликованном кластерном анализе данных микрочипов, где доступны фактические данные, которые были загружены в большой черный ящик? Поскольку я не биолог, обработка «сырых» данных довольно сложна и кажется отдельной областью исследований.

пользователь560

@MB - я знаю две базы данных (вероятно, их больше). ArrayExpress EMBL ( ebi.ac.uk/arrayexpress ) и GEO NCBI. На самом деле в Википедии есть более полный список: en.wikipedia.org/wiki/Microarray_databases .

Стив Лианоглу

Это не тот ответ, который вы, вероятно, ищете, но я бы рекомендовал не беспокоиться о том, что они имеют в виду, в частности, о своем тесте ... может быть, они действительно использовали манн-уитни, но их программное обеспечение (SPLUS) пометило это как «непараметрический t-критерий» для неформально обученного статистического конечного пользователя

[обновление] : я неправильно прочитал текст и подумал, что вы (и статья) написали «непараметрический t-критерий», поэтому я предложил возможный Манн-Уитни - ошибка с моей стороны, извините. Вторая часть ниже все еще стоит [/update]

В любом случае, прошло девять лет с тех пор, как это исследование было опубликовано, и биоинформатическое сообщество в значительной степени освоило анализ микрочипов. Если у вас нет особой причины не делать этого, вы почти всегда должны сначала использовать limma для анализа таких данных (данные экспрессии на уровне генов). Он имеет очень подробное руководство пользователя, которое поможет вам начать работу.

Если вы ищете места, где можно задать дополнительные вопросы по вашему анализу, рассмотрите возможность подписки на список рассылки по биокондукторам или посетите сайт контроля качества biostars .