Я ищу незакодированный файл данных с общими и научными названиями, например, нескольких сотен видов или десятков тысяч, где я могу искать общие и научные названия организмов.
У Uniprot есть список контролируемой лексики для общеупотребительных и научных названий видов, перечисленных здесь .
Пример записи:
ACAER E 111511: N=Acanthodactylus erythrurus
C=Spanish fringe-toed lizard
S=Lacerta erythrura
В примере N
это научное биномиальное название ( Canthodactylus erythrurus ), C
это общеупотребительное название (испанская бахромчатая ящерица).
ACAER
является идентификационным кодом, 111511
является кодом таксономического узла, E
означает, что это эукариот, и S
является синонимом любого имени.
В настоящее время список содержит 25336 научных названий, что меньше примерно 2,5 млн видов в GBIF , или десятков или сотен миллионов, которые, по оценкам, существуют . Однако в списке Uniprot представлены все организмы, включенные в Uniprot, который считается одной из самых полных баз данных белков, существующих сегодня.
Возможно, это не прямой ответ на ваш вопрос, в зависимости от того, что вы имеете в виду под «незакодированным файлом данных», но у Глобального информационного фонда по биоразнообразию (GBIF) есть API , с помощью которого вы извлекаете данные для названий видов. Их база данных включает общие имена (также известные как народные имена), когда они у них есть, и часто общие имена из разных языков. Используя этот API, вы можете извлекать данные и создавать файл имен для конкретных интересующих вас таксонов.
Например, это список первых 20 народных названий, найденных для Passer domesticus (домашний воробей):
{
"endOfRecords" : false,
"results" : [
{
"language" : "",
"sourceTaxonKey" : 100220560,
"source" : "Global Invasive Species Database",
"vernacularName" : "English sparrow"
},
{
"language" : "",
"sourceTaxonKey" : 100220560,
"vernacularName" : "Europese huismuis",
"source" : "Global Invasive Species Database"
},
{
"vernacularName" : "Gorrion domestico",
"source" : "Global Invasive Species Database",
"language" : "",
"sourceTaxonKey" : 100220560
},
{
"source" : "Integrated Taxonomic Information System (ITIS)",
"vernacularName" : "Gorrión casero",
"language" : "spa",
"sourceTaxonKey" : 102101640
},
{
"vernacularName" : "Gorrión Común",
"sourceTaxonKey" : 123213203,
"language" : "spa"
},
{
"language" : "spa",
"sourceTaxonKey" : 101186844,
"source" : "The European Nature Information System (EUNIS)",
"vernacularName" : "Gorrión Común"
},
{
"language" : "spa",
"sourceTaxonKey" : 114130266,
"source" : "Colaboraciones Americanas Sobre Aves",
"vernacularName" : "Gorrión casero"
},
{
"vernacularName" : "Gorrión casero",
"source" : "Yanayacu Natural History Research Group",
"sourceTaxonKey" : 119245200,
"language" : "spa"
},
{
"vernacularName" : "Gorrión casero",
"source" : "Catalogue of Life",
"sourceTaxonKey" : 119950016,
"language" : "spa"
},
{
"language" : "swe",
"sourceTaxonKey" : 101186844,
"vernacularName" : "Gråsparv",
"source" : "The European Nature Information System (EUNIS)"
},
{
"vernacularName" : "Gråspurv",
"language" : "dan",
"sourceTaxonKey" : 123213203
},
{
"vernacularName" : "Gråspurv",
"language" : "nob",
"sourceTaxonKey" : 123213203
},
{
"language" : "deu",
"sourceTaxonKey" : 116795880,
"vernacularName" : "Haussperling",
"source" : "Taxon list of animals with German names (worldwide) compiled at the SMNS",
"country" : "DE"
},
{
"language" : "deu",
"sourceTaxonKey" : 100483595,
"source" : "Belgian Species List",
"country" : "BE",
"vernacularName" : "Haussperling"
},
{
"language" : "deu",
"sourceTaxonKey" : 123213203,
"vernacularName" : "Haussperling"
},
{
"sourceTaxonKey" : 101186844,
"language" : "deu",
"source" : "The European Nature Information System (EUNIS)",
"vernacularName" : "Haussperling"
},
{
"source" : "The Clements Checklist",
"vernacularName" : "House Sparrow",
"language" : "eng",
"sourceTaxonKey" : 113987294
},
{
"vernacularName" : "House Sparrow",
"source" : "Taxonomy in Flux Checklist",
"language" : "eng",
"sourceTaxonKey" : 100159046
},
{
"source" : "Colaboraciones Americanas Sobre Aves",
"vernacularName" : "House Sparrow",
"language" : "eng",
"sourceTaxonKey" : 114130266
},
{
"sourceTaxonKey" : 102101640,
"language" : "eng",
"vernacularName" : "House Sparrow",
"source" : "Integrated Taxonomic Information System (ITIS)"
}
],
"limit" : 20,
"offset" : 0
}
Используя этот тип поиска: api.gbif.org/v1/species?name=Passer%20domesticus , вы можете искать всю информацию о конкретном виде, начиная либо с научного, либо с общеупотребительного названия (например, Passer domesticus ) . .
GBIF включает информацию о 1 643 948 видах (и их число продолжает расти), но я не знаю, в какой пропорции они имеют общие названия (или где есть общие названия).
"Gorrión casero"
приведенные выше) на самом деле имеют кодировку UTF-8, примененную дважды .Если вы ищете морские виды, Всемирный реестр морских видов , вероятно, является лучшим местом для поиска этой информации.
Океаническая биогеографическая информационная система также содержит огромное количество морских видов.
Поздний ответ, но я думаю, что упомянутые источники ограничены, и потрясающая страница загрузки Observado.org предлагает гораздо лучшую альтернативу.
На веб-сайте Observado, инициативы по сбору наблюдений за видами по всему миру, есть глобальные списки видов в формате csv, которые являются настолько полными, насколько это возможно . Список растений на данный момент насчитывает 381 473 записи! Вы можете скачать названия местных видов на других языках, о которых вы, возможно, слышали, от английского до русского и от фриска до дзонг-кэ.
Обратите внимание, что эти списки предназначены для наблюдений в полевых условиях и, следовательно, также содержат мультивиды, гибриды и синонимы. Но их можно легко отфильтровать.
файлподводный
Пере
жизнь в деревьях