Я проанализировал очень большой файл TCGA Cancer ssm (файл с одной мутацией), чтобы получить необходимую информацию.
SSM имеет следующий формат:
['Gene name', 'Ensembl Gene ID', 'Chromosome', 'Chromosome start', 'Cancer Type']
['NTRK1', 'ENSG00000198400', '1','156849827', 'Prostate Adenocarcinoma (TCGA, US)']
Оттуда я хотел бы захватить каждую мутацию и:
Я хотел бы сделать этот Python (я думаю, что BioPython подходит для этого) для последующих приложений.
Чтобы:
Вам не нужен BioPython для первых трех шагов, так как он просто анализирует каждую строку и сравнивает значения. BioPython полезен для работы с файлами FASTA (часть 4). В целом, это в основном сводится к вопросу программирования со всеми этими ресурсами (в основном вам нужно разделить каждую строку, чтобы получить соответствующие числа/идентификаторы, а затем сравнить).
бэп
пруссияп
code
['Имя гена', 'Идентификатор гена ансамбля', 'Хромосома', 'Начало хромосомы', 'Тип рака'] ['NTRK1', 'ENSG00000198400','1', ' 156849827», «Аденокарцинома предстательной железы (TCGA, США)»]code
Первая строка — характеристики, вторая — пример того, что в ней содержится. он же название гена, идентификатор ансамбля генов, положение хромосомы и тип рака. Я хотел бы использовать эту информацию (любую или всю), чтобы определить, встречаются ли эти SNP преимущественно в каких-либо микроРНК или каких-либо 3'UTR.райгозаг