Я загрузил два разных эталонных генома E. coli ( E. coli K-12 MG1655: U00096.1 и E. coli K-12 MG1655: U00096.2), и они имеют разную длину. Я подробно искал значение номеров эталонных геномов, но не смог найти ничего, что помогло бы мне ответить на мой вопрос: почему два разных эталонных генома E. coli имеют разную длину?
U00096.2 — обновленная версия U00096.1 ; вы должны предпочтительно использовать первый для вашего анализа. На самом деле, даже U00096.2 был обновлен. Последняя версия — U00096.3 . Как правило, число после точки (точки) в инвентарных номерах NCBI обозначает версию.
Из NCBI :
ВЕРСИЯ состоит из инвентарного номера записи базы данных, за которым следует точка и номер версии (поэтому ее иногда называют «accession.version»).
Как ответил WYSIWYG, это обновленные версии.
Разница в длине в основном связана с тем, что более поздние версии упорядочиваются / согласовываются с лучшим оборудованием и методами, обеспечивая результаты, которые лучше отражают реальность.
Некоторые участки генома труднее секвенировать и эффективно выровнять, но с помощью более продвинутых методов это можно сделать.
Секвенировать 100% генома без ошибок и идеального выравнивания пока невозможно, но мы медленно приближаемся к этому.
пользователь137927
WYSIWYG