Данные TCGA и вопросы дизайна биоинформатики для анализа SNP/mirna

Я впервые пишу на этот форум, но искал помощи в аспектах данных этого проекта.

Мои инструменты выбора были бы в python/R .

Цель: я пытаюсь создать специфический для заболевания профиль только SNP и SNP в миРНК и сайтах-мишенях миРНК.

ЧАСТЬ 1: TCGA Мой первый шаг — использование данных TCGA, в которых перечислены тонны вредных мутаций в формате LOH .txt. Я хотел бы иметь возможность сопоставить эти мутации с SNP, генами или микроРНК (к каким бы объектам они ни принадлежали). Даташит TCGA находится здесь . Пример данных здесь. для рака молочной железы. Думаю, я также могу использовать эти данные микроРНК и мРНК.

Вопросы здесь:

  1. Как расшифровать данные LOH, чтобы выяснить, имеют ли они смысл и где они отображаются?
  2. Какие инструменты использовать для картирования и какие форматы для окончательных данных? Фаста?

miRNA/мишени и SNPs Следующим шагом является получение специфичных для рака miRNAs и mRNAs и сопоставление с ними SNP? Я предполагаю использование баз данных dbSNP или Sanger miRNA для получения miRNA/мишеней и начальных последовательностей.

Я немного не понимаю, как объединить все эти фрагменты информации, какие форматы использовать для вывода (связанные с отдельными фрагментами) и какие инструменты, если таковые имеются, использовать для сбора всех этих данных с помощью python. Этот инструмент является полезным инструментом mirdsnp.

Я думаю, что вам может не хватать нескольких ссылок - я не вижу вашего листа данных TCGA и не могу сказать, предназначена ли ссылка в последнем предложении или нет.
Привет, я отредактировал это. Я полагаю, что мне была разрешена только одна ссылка, поэтому, надеюсь, она исправлена. во-вторых, как включить данные, связанные с miR и miRsnp. Спасибо, что нашли недостающие ссылки. Если я недостаточно ясно выразился или предоставил недостаточно информации, дайте мне знать, и я объясню, насколько смогу [1]: tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp
Я не могу комментировать науку, но что касается анализа, у Biopython есть отличные инструменты для работы с данными в формате FASTA: см. SeqRecord.

Ответы (1)

Вы можете взглянуть на этот учебник , чтобы понять файлы TCGA MAF. И вы можете найти список файлов TCGA MAF, содержащих мутации, сопоставленные с генами и микроРНК, по адресу https://www.synapse.org/#!Search:syn1710680 .

Спасибо за ответы. @dd3 Я планировал использовать SeqRecord. Хотя я не уверен, как добавить функции к SNP, чтобы связать их с соответствующими микроРНК или мишенями и т. д.
это отличные ссылки. Как вы определили МАФ. Я смотрю на SNP и профилирование экспрессии микроРНК для уровня 3 [ данные tcga-data.nci.nih.gov/tcga/tcgaDataType.jsp ]. где я нашел эту информацию, и в ней упоминаются LOH и MAGE-TAB. Вот еще одна ссылка [ wideinstitute.org/collaboration/gcc/data/data-types ].. Так что я думаю, что в этой конкретной части я запутался в формате данных и значении данных :). В остальном это то, как манипулировать микроРНК, а затем выполнять пакетный поиск с помощью python/biopython. Еще раз спасибо.
После нахождения этого [ wiki.nci.nih.gov/display/TCGA/Accessing+MAF+files link] мне кажется, что файлы уровня 2 являются файлами MAF. Третий уровень - это .txt что-то еще.
@prussiap: я не знаком с форматами файлов, но не могли бы вы использовать словари Python, используя идентификаторы SNP в качестве ключей?
Это метод, который я использую до сих пор. Это удаляет дубликаты, но я все же хотел бы сделать массовую загрузку позиций и аннотаций для каждого SNP.
@prussiap: уровень 2 — это обработанные данные, а уровень 3 — интерпретированные/проверенные данные. Для получения более подробной информации посетите страницу классификации уровня данных TCGA .