Использование organism:"Homo sapiens (Human) [9606]"
в качестве запроса в uniprot возвращает около 146 000 белков. У меня сложилось впечатление, что в геноме человека всего 20-25 000 кодирующих белок генов . Это как-то связано с изоформами сплайсинга, например, из SpliceProt или с другой базой данных изоформ сплайсинга или инструментом?
Ну, вы предполагаете, что один секвенированный геном / протеом на налоговый идентификатор NCBI. Это уже не так. Поэтому, если вы нажмете на фильтр протеома, он уменьшится вдвое. Что приводит вас к диапазону 60 000. Не все из них являются «разными» концептуальными белками, многие из них являются артефактами взаимодействия GenBank/EMBL/DDBJ с разделом TrEMBL UniProtKB, т. е. они не нормализованы в языке db.
Итак, в случае человека вы также хотите добавить фильтр Swiss-Prot, чтобы получить достойный протеом, который дает вам около 20 000 белков. Соответствует предсказанному/подтвержденному количеству человеческих генов.
Во всех базах данных биоинформатики необходимо обращать внимание на разницу между записями базы данных и биологическими понятиями. Они редко сопоставляются четко один к одному. В этом случае запись UniProt не является белком, но информация о белке и другая запись могут содержать информацию об одном и том же «белке». Или, по крайней мере, то же самое под некоторыми определениями «того же самого».
Смотрите анонс проекта протеома человека в UniProtKB
Известные изоформы чаще всего хранятся в разделе альтернативных продуктов записи UniProt. В некоторых редких случаях, когда вариант сплайсинга имеет совершенно другую биологическую функцию, они описываются в отдельных статьях UniProt. Для UniProtKB/Swiss-Prot Human соотношение между генами и белками близко 1 к 1. Случаи, описанные выше, и слитые белки являются исключением из этого правила.
TrEMBL пытается автоматически уменьшить избыточность в INSDC, автоматически объединяя записи в одном и том же таксиде, а теперь и в протеоме, которые имеют идентичную зарегистрированную последовательность. Однако вариации продуктов одного гена из-за мутаций и / или ограничивают возможности автоматического слияния. Например, сегодня в TrEMBL имеется 8 записей для гена P53. Многие из них от мутантов, т.е. раковых геномов и т.д...
В геноме более 20 тысяч генов, но каждый из них может производить несколько белков. В дополнение к этому у вас есть белковые фрагменты и продукты расщепления, что еще больше увеличивает количество записей.
Крис
Джервен
Джеймс
Джек Эйдли