Картирование мутации с известным SNP, 3' UTR, miR

Я проанализировал очень большой файл TCGA Cancer ssm (файл с одной мутацией), чтобы получить необходимую информацию.

SSM имеет следующий формат:

['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type']
['NTRK1', 'ENSG00000198400', '1','156849827', 'Prostate Adenocarcinoma (TCGA, US)']

Оттуда я хотел бы захватить каждую мутацию и:

  1. Сопоставьте хромосомное положение с известным SNP (rs something output).
  2. Посмотрите, найден ли этот snp в 3'UTR
  3. Посмотрите, обнаружен ли этот snp в миРНК
  4. Миссенс или смысловая мутация
  5. Любой соответствующий генбанк и т. д. идентификаторы

Я хотел бы сделать этот Python (я думаю, что BioPython подходит для этого) для последующих приложений.

В чем вопрос? Также было бы полезно, если бы вы указали формат файла, который хотите обработать.
Я уже разобрал формат для этого: code['Имя гена', 'Идентификатор гена ансамбля', 'Хромосома', 'Начало хромосомы', 'Тип рака'] ['NTRK1', 'ENSG00000198400','1', ' 156849827», «Аденокарцинома предстательной железы (TCGA, США)»] codeПервая строка — характеристики, вторая — пример того, что в ней содержится. он же название гена, идентификатор ансамбля генов, положение хромосомы и тип рака. Я хотел бы использовать эту информацию (любую или всю), чтобы определить, встречаются ли эти SNP преимущественно в каких-либо микроРНК или каких-либо 3'UTR.
Вы также можете опубликовать на biostars.org вопросы, связанные с биоинформатикой.

Ответы (1)

Чтобы:

  1. К сожалению, нет простого способа пакетного запроса только с местоположением. Вы можете посмотреть SNP в генах здесь . (Вы можете найти ген, в котором расположен SNP, выполнив поиск в аннотированном файле генома человека для определения положения.)
  2. Вы можете выяснить, находится ли он в 3'UTR, сравнив его со списком человеческих 3'UTR. Здесь поможет страница браузера генома UCSC : измените регион на «геном», формат вывода на «BED», нажмите «получить вывод», а затем отфильтруйте 3' UTR.
  3. Вы можете выяснить, находится ли он в микроРНК, сравнив позиции chr/start с базой данных, доступной здесь .
  4. Вы можете использовать расположение хромосом и сравнить с последовательностью генома человека. Вероятно, есть лучший способ сделать это, но FASTA для каждой хромосомы доступен здесь .
  5. Вы можете использовать идентификаторы SNP для сопоставления с образцами Genbank в соответствии с инструкциями здесь .

Вам не нужен BioPython для первых трех шагов, так как он просто анализирует каждую строку и сравнивает значения. BioPython полезен для работы с файлами FASTA (часть 4). В целом, это в основном сводится к вопросу программирования со всеми этими ресурсами (в основном вам нужно разделить каждую строку, чтобы получить соответствующие числа/идентификаторы, а затем сравнить).

Так что мне удалось разобраться с мутациями и соответствующими им 3'UTR. Я до сих пор не вижу способа определить, находится ли эта мутация в UTR в целевом сайте микроРНК? Есть мысли по этому поводу?
@prussiap: ваш первоначальный вопрос был задан, чтобы выяснить, была ли мутация в miR - чтобы выяснить, является ли мутация целью miR, лучшее, что я знаю, это DIANA. К сожалению, поиск идет по другому пути: если вы ищете miR, вы можете найти предсказанные целевые сайты: diana.cslab.ece.ntua.gr