Почему и как uniprot перечисляет около 150 000 белков в геноме человека?

Использование organism:"Homo sapiens (Human) [9606]"в качестве запроса в uniprot возвращает около 146 000 белков. У меня сложилось впечатление, что в геноме человека всего 20-25 000 кодирующих белок генов . Это как-то связано с изоформами сплайсинга, например, из SpliceProt или с другой базой данных изоформ сплайсинга или инструментом?

Ответы (2)

Ну, вы предполагаете, что один секвенированный геном / протеом на налоговый идентификатор NCBI. Это уже не так. Поэтому, если вы нажмете на фильтр протеома, он уменьшится вдвое. Что приводит вас к диапазону 60 000. Не все из них являются «разными» концептуальными белками, многие из них являются артефактами взаимодействия GenBank/EMBL/DDBJ с разделом TrEMBL UniProtKB, т. е. они не нормализованы в языке db.

Итак, в случае человека вы также хотите добавить фильтр Swiss-Prot, чтобы получить достойный протеом, который дает вам около 20 000 белков. Соответствует предсказанному/подтвержденному количеству человеческих генов.

Во всех базах данных биоинформатики необходимо обращать внимание на разницу между записями базы данных и биологическими понятиями. Они редко сопоставляются четко один к одному. В этом случае запись UniProt не является белком, но информация о белке и другая запись могут содержать информацию об одном и том же «белке». Или, по крайней мере, то же самое под некоторыми определениями «того же самого».

Смотрите анонс проекта протеома человека в UniProtKB

Известные изоформы чаще всего хранятся в разделе альтернативных продуктов записи UniProt. В некоторых редких случаях, когда вариант сплайсинга имеет совершенно другую биологическую функцию, они описываются в отдельных статьях UniProt. Для UniProtKB/Swiss-Prot Human соотношение между генами и белками близко 1 к 1. Случаи, описанные выше, и слитые белки являются исключением из этого правила.

TrEMBL пытается автоматически уменьшить избыточность в INSDC, автоматически объединяя записи в одном и том же таксиде, а теперь и в протеоме, которые имеют идентичную зарегистрированную последовательность. Однако вариации продуктов одного гена из-за мутаций и / или ограничивают возможности автоматического слияния. Например, сегодня в TrEMBL имеется 8 записей для гена P53. Многие из них от мутантов, т.е. раковых геномов и т.д...

Поскольку большинство белков существует более чем в одной изоформе, число должно быть больше 20 000.
@chris в изоформах UniProtKB не получает независимой записи. См. neXtProt для базы данных белков человека, ориентированной на изоформы.
Очень содержательный ответ, спасибо. Чтобы было ясно, эти около 100 000 изоформ и артефактов поступают из GenBank, EMBL и DDBJ и представлены как записи TrEMBL?
Ключевым моментом является то, что белков больше, чем генов, потому что так много генов существует в множественных формах сплайсинга. Не следует ожидать, что количество генов и количество белков совпадут.

В геноме более 20 тысяч генов, но каждый из них может производить несколько белков. В дополнение к этому у вас есть белковые фрагменты и продукты расщепления, что еще больше увеличивает количество записей.

Я также надеялся узнать, где и как uniprot находит информацию об этих дополнительных продуктах.
Полагаю, данные протеомики @GoodGravy
@GoodGravy Многие из них взяты непосредственно из документов и других баз данных, таких как NCBI. Например, B7U540 — это запись, исходящая от меня (через NCBI, поскольку я никогда не отправлял ее напрямую в UniProt).