У меня есть 6 генов дрожжей Candida albicans , а именно orf19.723
, orf19.5908
, orf19.610
, orf19.2119
и . И я нашел соответствующие гены-ортологи на веб- сайте Института Броуда других 16 видов дрожжей. Так что у меня есть все имена генов. Теперь, как мне конкретно загрузить эти гены и откуда я могу это сделать, желательно в автоматическом режиме?orf19.4998
orf19.4056
Также существует ли какое-либо стандартное соглашение об именах? Поскольку указанные имена ORF имеют и другие имена, такие как BCR1, EFG1 и NDT80.
Список имен генов, которые у меня есть:
The orthologs of C. Albicans with S. cerevisiae
orf19.2119 YHR124W
orf19.4998 YBR033W YKL034W
orf19.5908 YBR083W
orf19.610 YMR016C YKL043W
orf19.723 NONE
orf19.4056 YMR136W
The orthologs of C. Albicans with S. paradoxus
orf19.2119 spar33-g1.1
orf19.4998 spar197-g23.1 spar324-g3.1
orf19.5908 spar200-g4.1
orf19.610 spar184-g1.1 spar324-g10.1
orf19.723 NONE
orf19.4056 spar165-g2.1
The orthologs of C. Albicans with S. mikatae
orf19.2119 NONE
orf19.4998 smik146-g12.1 smik109-g17.1
orf19.5908 smik83-g2.1
orf19.610 smik571-g2.1 smik109-g10.1
orf19.723 NONE
orf19.4056 smik1535-g1.1
The orthologs of C. Albicans with S. bayanus
orf19.2119 sbayc514-g9.1
orf19.4998 sbayc611-g22.1 sbayc652-g20.1
orf19.5908 sbayc678-g131.1
orf19.610 sbayc638-g23.1 sbayc652-g27.1
orf19.723 NONE
orf19.4056 sbayc657-g41.1
The orthologs of C. Albicans with S. castellii
orf19.2119 Scas697.24
orf19.4998 Scas625.4
orf19.5908 Scas718.27 Scas635.12
orf19.610 Scas106.1 Scas709.52 Scas625.8
orf19.723 NONE
orf19.4056 Scas680.22d
The orthologs of C. Albicans with C. glabrata
orf19.2119 CAGL0L13090g
orf19.4998 CAGL0L01947g
orf19.5908 CAGL0M01716g CAGL0F04081g
orf19.610 CAGL0M07634g CAGL0L01771g
orf19.723 NONE
orf19.4056 CAGL0I00902g CAGL0L06776g
The orthologs of C. Albicans with S. kluyveri
orf19.2119 SAKL0E11330g
orf19.4998 SAKL0A09812g
orf19.5908 SAKL0B06578g
orf19.610 SAKL0D13442g
orf19.723 SAKL0A03476g
orf19.4056 SAKL0E04862g
The orthologs of C. Albicans with K. lactis
orf19.2119 KLLA0F24420g
orf19.4998 KLLA0F25674g
orf19.5908 KLLA0E12507g
orf19.610 KLLA0F04840g
orf19.723 NONE
orf19.4056 KLLA0F17116g
The orthologs of C. Albicans with A. gossypii
orf19.2119 AGR347W
orf19.4998 AFR275W
orf19.5908 AER177W
orf19.610 ABR055C
orf19.723 NONE
orf19.4056 ADR249W
The orthologs of C. Albicans with K. waltii
orf19.2119 Kwal33.14699
orf19.4998 Kwal26.8099
orf19.5908 Kwal27.12423
orf19.610 Kwal26.8176
orf19.723 NONE
orf19.4056 Kwal47.17849
The orthologs of C. Albicans with C. tropicalis
orf19.2119 CTRG01097.3
orf19.4998 CTRG03636.3
orf19.5908 CTRG02294.3
orf19.610 NONE
orf19.723 CTRG00608.3
orf19.4056 CTRG04523.3
The orthologs of C. Albicans with L. elongosporus
orf19.2119 LELG01178
orf19.4998 NONE
orf19.5908 LELG02666
orf19.610 LELG05390
orf19.723 LELG03123
orf19.4056 LELG01761
The orthologs of C. Albicans with C. parapsilosis
orf19.2119 CPAG04608
orf19.4998 NONE
orf19.5908 CPAG01691
orf19.610 CPAG00178
orf19.723 CPAG00564
orf19.4056 CPAG05034
The orthologs of C. Albicans with D. hansenii
orf19.2119 DEHA2A07282g
orf19.4998 NONE
orf19.5908 DEHA2G13794g
orf19.610 DEHA2E10978g
orf19.723 DEHA2E05984g
orf19.4056 DEHA2E07172g DEHA2F25916g
The orthologs of C. Albicans with C. guilliermondii
orf19.2119 PGUG02096.1
orf19.4998 NONE
orf19.5908 PGUG04378.1
orf19.610 PGUG03651.1
orf19.723 PGUG05571.1
orf19.4056 PGUG05533.1
The orthologs of C. Albicans with C. lusitaniae
orf19.2119 CLUG00404
orf19.4998 NONE
orf19.5908 CLUG04694
orf19.610 CLUG02047
orf19.723 CLUG00627
orf19.4056 CLUG05535
Эти последовательности не имеют стандартного идентификатора. Информация в базе данных генома Saccharomyces также устарела (2005 г.) и не имеет этих идентификаторов.
Эти последовательности можно найти здесь (на том же сайте).
Каждый вид имеет краткое название:
ОРГАНИЗМ Краткое название S.cerevisiae Scer С. баянус Сбай С. парадокс Спар А. госсипи Агос .... и так далее.
Первая буква названия рода в верхнем регистре + первые 3 буквы названия вида в нижнем регистре.
Файл fasta (для всех ORF):
www.broadinstitute.org/regev/orthogroups/nt/<Shortname>.fasta
Оттуда вы можете использовать grep для получения последовательности.
Итак, если вы сохранили короткие имена и имена генов в двух отдельных файлах, вы можете сделать что-то вроде этого:
for shortname in `cat shortname.txt`; do wget -O tmp.fa "http://www.broadinstitute.org/regev/orthogroups/nt/"$shortname.fasta; grep -A 1 -f ids.txt tmp.fa >> $shortname"_Select.fa"; done
Хорошо, первым шагом должно быть сопоставление всех этих идентификаторов с одной и той же базой данных. Попробуйте использовать http://uniprot.org , если вам нужны другие белковые последовательности, найдите каждую из них и найдите соответствующий Refseq ID. Поскольку у вас есть идентификаторы из нескольких баз данных, вам может потребоваться гуглить их по отдельности. Если вы знаете тип идентификатора каждого идентификатора, который у вас есть, вы можете использовать такой инструмент, как преобразователь имен генов DAVID, чтобы автоматизировать его.
Получив список идентификаторов из той же базы данных, сохраните их в файле (по одному идентификатору в строке). Затем для образцов UniProt вы можете получить последовательность белка FASTA, запустив:
while read name; do wget -O - http://uniprot.org/$name.fasta; done < names.txt
Для идентификаторов RefSeq вы можете использовать инструмент пакетного поиска Entrez.
spar*
или SPAR*
. Пример; заголовок первого поста: ORFN:24882 YPRWsigma4, Contig c301 66351-67256
. Это даже не полная сборка; это говорит контиг.
Луиджи
тердон
декстердев
WYSIWYG
декстердев