Загрузка определенных генов дрожжей в автоматическом режиме?

У меня есть 6 генов дрожжей Candida albicans , а именно orf19.723, orf19.5908, orf19.610, orf19.2119и . И я нашел соответствующие гены-ортологи на веб- сайте Института Броуда других 16 видов дрожжей. Так что у меня есть все имена генов. Теперь, как мне конкретно загрузить эти гены и откуда я могу это сделать, желательно в автоматическом режиме?orf19.4998orf19.4056

Также существует ли какое-либо стандартное соглашение об именах? Поскольку указанные имена ORF имеют и другие имена, такие как BCR1, EFG1 и NDT80.

Список имен генов, которые у меня есть:

The orthologs of C. Albicans with S. cerevisiae
orf19.2119  YHR124W 
orf19.4998  YBR033W YKL034W 
orf19.5908  YBR083W 
orf19.610   YMR016C YKL043W 
orf19.723   NONE
orf19.4056  YMR136W 

The orthologs of C. Albicans with S. paradoxus
orf19.2119  spar33-g1.1 
orf19.4998  spar197-g23.1   spar324-g3.1    
orf19.5908  spar200-g4.1    
orf19.610   spar184-g1.1    spar324-g10.1   
orf19.723   NONE
orf19.4056  spar165-g2.1

The orthologs of C. Albicans with S. mikatae
orf19.2119  NONE
orf19.4998  smik146-g12.1   smik109-g17.1   
orf19.5908  smik83-g2.1 
orf19.610   smik571-g2.1    smik109-g10.1   
orf19.723   NONE
orf19.4056  smik1535-g1.1   

The orthologs of C. Albicans with S. bayanus
orf19.2119  sbayc514-g9.1   
orf19.4998  sbayc611-g22.1  sbayc652-g20.1  
orf19.5908  sbayc678-g131.1 
orf19.610   sbayc638-g23.1  sbayc652-g27.1  
orf19.723   NONE
orf19.4056  sbayc657-g41.1

The orthologs of C. Albicans with S. castellii
orf19.2119  Scas697.24  
orf19.4998  Scas625.4   
orf19.5908  Scas718.27  Scas635.12  
orf19.610   Scas106.1   Scas709.52  Scas625.8   
orf19.723   NONE
orf19.4056  Scas680.22d 

The orthologs of C. Albicans with C. glabrata
orf19.2119  CAGL0L13090g    
orf19.4998  CAGL0L01947g    
orf19.5908  CAGL0M01716g    CAGL0F04081g    
orf19.610   CAGL0M07634g    CAGL0L01771g    
orf19.723   NONE
orf19.4056  CAGL0I00902g    CAGL0L06776g    

The orthologs of C. Albicans with S. kluyveri
orf19.2119  SAKL0E11330g    
orf19.4998  SAKL0A09812g    
orf19.5908  SAKL0B06578g    
orf19.610   SAKL0D13442g    
orf19.723   SAKL0A03476g    
orf19.4056  SAKL0E04862g    

The orthologs of C. Albicans with K. lactis
orf19.2119  KLLA0F24420g    
orf19.4998  KLLA0F25674g    
orf19.5908  KLLA0E12507g    
orf19.610   KLLA0F04840g    
orf19.723   NONE
orf19.4056  KLLA0F17116g    

The orthologs of C. Albicans with A. gossypii
orf19.2119  AGR347W 
orf19.4998  AFR275W 
orf19.5908  AER177W 
orf19.610   ABR055C 
orf19.723   NONE
orf19.4056  ADR249W 

The orthologs of C. Albicans with K. waltii
orf19.2119  Kwal33.14699    
orf19.4998  Kwal26.8099 
orf19.5908  Kwal27.12423    
orf19.610   Kwal26.8176 
orf19.723   NONE
orf19.4056  Kwal47.17849    

The orthologs of C. Albicans with C. tropicalis
orf19.2119  CTRG01097.3 
orf19.4998  CTRG03636.3 
orf19.5908  CTRG02294.3 
orf19.610   NONE
orf19.723   CTRG00608.3 
orf19.4056  CTRG04523.3 

The orthologs of C. Albicans with L. elongosporus
orf19.2119  LELG01178   
orf19.4998  NONE
orf19.5908  LELG02666   
orf19.610   LELG05390   
orf19.723   LELG03123   
orf19.4056  LELG01761   

The orthologs of C. Albicans with C. parapsilosis
orf19.2119  CPAG04608   
orf19.4998  NONE
orf19.5908  CPAG01691   
orf19.610   CPAG00178   
orf19.723   CPAG00564   
orf19.4056  CPAG05034   

The orthologs of C. Albicans with D. hansenii
orf19.2119  DEHA2A07282g    
orf19.4998  NONE
orf19.5908  DEHA2G13794g    
orf19.610   DEHA2E10978g    
orf19.723   DEHA2E05984g    
orf19.4056  DEHA2E07172g    DEHA2F25916g    

The orthologs of C. Albicans with C. guilliermondii
orf19.2119  PGUG02096.1 
orf19.4998  NONE
orf19.5908  PGUG04378.1 
orf19.610   PGUG03651.1 
orf19.723   PGUG05571.1 
orf19.4056  PGUG05533.1 

The orthologs of C. Albicans with C. lusitaniae
orf19.2119  CLUG00404   
orf19.4998  NONE
orf19.5908  CLUG04694   
orf19.610   CLUG02047   
orf19.723   CLUG00627   
orf19.4056  CLUG05535
Вы можете проверить biopython , если вам удобно программировать на Python .
На какой ОС вы бы это сделали? Есть ли у вас доступ к инструментам UNIX? Также, пожалуйста, покажите нам остальные названия генов. Какие идентификаторы у вас есть? Ответ будет зависеть от того, на какую базу данных указывают идентификаторы.
@terdon: у меня есть инструменты unix (debian — это ОС). Хорошо, я перечислю гены.
Было бы довольно просто, если бы у вас были идентификаторы Refseq/ENSEMBL для этих генов.
@terdon: я обновил вопрос.

Ответы (2)

Эти последовательности не имеют стандартного идентификатора. Информация в базе данных генома Saccharomyces также устарела (2005 г.) и не имеет этих идентификаторов.

Эти последовательности можно найти здесь (на том же сайте).

Каждый вид имеет краткое название:

ОРГАНИЗМ Краткое название 
S.cerevisiae Scer
С. баянус Сбай
С. парадокс Спар
А. госсипи Агос

.... и так далее. 

Первая буква названия рода в верхнем регистре + первые 3 буквы названия вида в нижнем регистре.

Файл fasta (для всех ORF):
www.broadinstitute.org/regev/orthogroups/nt/<Shortname>.fasta

Оттуда вы можете использовать grep для получения последовательности.

Итак, если вы сохранили короткие имена и имена генов в двух отдельных файлах, вы можете сделать что-то вроде этого:

for shortname in `cat shortname.txt`; do wget -O tmp.fa "http://www.broadinstitute.org/regev/orthogroups/nt/"$shortname.fasta; grep -A 1 -f ids.txt tmp.fa >> $shortname"_Select.fa"; done
Хорошо, спасибо, это было действительно полезно.
@dexterdev Код поиска можно сделать лучше и быстрее в зависимости от того, что вы действительно хотите получить на выходе.
@dexterdev Первая - это последовательность нуклеотидов, а вторая - последовательность белка. Я дал первую ссылку, потому что вы сказали, что хотите нуклеотид.
Извините за глупый вопрос. Я смотрел на это, но не заметил этого. Извини.

Хорошо, первым шагом должно быть сопоставление всех этих идентификаторов с одной и той же базой данных. Попробуйте использовать http://uniprot.org , если вам нужны другие белковые последовательности, найдите каждую из них и найдите соответствующий Refseq ID. Поскольку у вас есть идентификаторы из нескольких баз данных, вам может потребоваться гуглить их по отдельности. Если вы знаете тип идентификатора каждого идентификатора, который у вас есть, вы можете использовать такой инструмент, как преобразователь имен генов DAVID, чтобы автоматизировать его.

Получив список идентификаторов из той же базы данных, сохраните их в файле (по одному идентификатору в строке). Затем для образцов UniProt вы можете получить последовательность белка FASTA, запустив:

while read name; do wget -O - http://uniprot.org/$name.fasta; done < names.txt

Для идентификаторов RefSeq вы можете использовать инструмент пакетного поиска Entrez.

Полезный ответ. Во-первых, я работаю не с последовательностями белков, а только с последовательностями нуклеотидов.
Когда я гуглил эти идентификаторы, я не мог найти совпадений в базе данных. Я проверил SGD, но их репозиторий (из Массачусетского технологического института) устарел (2005 г.). Даже тогда файл orf fasta ( S.paradoxus ) не имел идентификатора типа spar*или SPAR*. Пример; заголовок первого поста: ORFN:24882 YPRWsigma4, Contig c301 66351-67256. Это даже не полная сборка; это говорит контиг.