Данные микрочипов и инструменты анализа

Микрочип имеет различные применения, и для анализа данных используется классификация основных функций. Существует много методов, используемых для классификации данных, но какие методы являются лучшими и наиболее часто используемыми? Существуют ли какие-либо известные веб-инструменты для анализа микрочипов? Где я могу найти наборы данных профилей экспрессии генов, где я могу найти и понять матрицу набора данных?

попробуйте пакет биокондуктора.
Sebida и DGRP имеют доступные данные
Если подумать, большая часть или все данные об экспрессии генов должны быть размещены в Интернете — попробуйте просмотреть сводку по экспрессии генов. И я повторяю рекомендацию биопроводника (в R)

Ответы (1)

Это довольно широкий вопрос, и книга или две дадут более полный ответ. Я предполагаю, что вас интересуют экспрессионные микрочипы. В наши дни также очень популярны микрочипы для генотипирования, хотя они совершенно разные.

Где я могу понять матрицу набора данных? Это немного неясно как вопрос, но я начну с числового описания. Данные микроматрицы можно свести к одномерному массиву интенсивностей. Как вектор чисел, каждое из которых представляет количество данного вида РНК в образце, он имеет множество интерпретаций. Большая часть того, что здесь сказано, относится и к данным RNASeq.

Эти числа зависят от последовательности, то есть их не следует интерпретировать как абсолютное количество конкретной мРНК в образце, поэтому сравнение двух записей в векторе (например, «ген А имеет на 10% больше РНК, чем ген В»), вероятно, будет не быть полезным.

По этой причине эксперименты с микрочипами обычно проводятся как эксперименты по разнице, в которых сравниваются два или более условий, создавая матрицу чисел, где N строк представляют N экспериментов, а каждый из M столбцов представляет набор зондов / ген. Транспонирование этой матрицы также распространено.

**Методы классификации результатов микрочипов. ** Если взять матрицу данных, существует множество способов интерпретации данных в матричной форме, и большинство из них были надежно опробованы с данными микрочипов.

Чаще всего берут набор наборов зондов, биологическое действие которых связано (например, все в метаболическом пути), и отображают их в виде тепловой карты, где столбцы сгруппированы с помощью алгоритма, основанного на расстоянии, для создания дерева, где соседи имеют наибольшее числовое сходство.

Тепловая карта

Для чисто численных методов часто используется анализ основных компонентов (несмотря на то, что это не очень хороший метод ), но используются самоорганизующиеся карты, нейронные сети и практически любой алгоритм машинного обучения.

Тем не менее, наиболее распространенным методом на сегодняшний день является анализ вариантов ( ANOVA ), где наборы зондов/гены оцениваются по их наибольшей и наименьшей дисперсии. Наиболее распространенным случаем этого является эксперимент с двумя разностями условий, в котором в качестве результатов берутся самые большие различия. Это не очень удачный эксперимент, но получение данных обходится недешево.

**Хранилища данных микрочипов ** Gene Expression Omnibus (GEO) — это уважаемое хранилище данных микрочипов, содержащее более миллиона наборов данных. У них также есть некоторые инструменты, см. ниже.

EMBL ArrayExpress утверждает, что у него чуть больше данных, чем у GEO (1,2 млн анализов).

Существует множество специализированных веб-сайтов, посвященных микрочипам, в основном посвященных конкретному организму (например, кишечной палочке) или проблеме (например, раку). Google очень полезен для такого рода вещей, если у вас есть правильные ключевые слова.

** Веб-инструменты для анализа микрочипов ** Есть несколько инструментов, которые вы будете использовать для анализа микрочипов, и существует множество веб-сайтов для различных аспектов этих данных. Я собираюсь процитировать пару, но наиболее часто используемые инструменты — это инструменты командной строки, такие как R/bioconductor, или программное обеспечение, поставляемое производителем массива.

GEO2R — отличный инструмент для просмотра экспериментов с данными экспрессии. Это простая версия ANOVA, которая действительно поможет вам быстро найти интересную биологию.

VAMPIRE — это пакет веб-анализа для анализа микрочипов. Масштабирование данных в числа от изображений до интенсивности для анализа данных для сравнения нескольких массивов. Вероятно, это один из самых полных аналитических сайтов.

«Анализ основных компонентов», а не «Анализ основных компонентов». Он анализирует главные компоненты. Неправильное написание может показать, почему вы считаете это проблемой, потому что вам нужно понять принципы, лежащие в основе принципов.
Я не понимаю, почему вы не были бы предрасположены к использованию PCA, но все же были бы предрасположены к принятию кластеризации близости и карт самоорганизации. Неважно, какая курица снесет яйцо. Это куриные яйца.
Я не думаю, что это обсуждение, которое мы должны проводить в этом разделе комментариев, но, короче говоря, люди, использующие его (в предоставленной вами ссылке), могут не понимать значение «основных компонентов».