Почему два разных эталонных генома E. coli имеют разную длину?

Я загрузил два разных эталонных генома E. coli ( E. coli K-12 MG1655: U00096.1 и E. coli K-12 MG1655: U00096.2), и они имеют разную длину. Я подробно искал значение номеров эталонных геномов, но не смог найти ничего, что помогло бы мне ответить на мой вопрос: почему два разных эталонных генома E. coli имеют разную длину?

Ответы (2)

U00096.2 — обновленная версия U00096.1 ; вы должны предпочтительно использовать первый для вашего анализа. На самом деле, даже U00096.2 был обновлен. Последняя версия — U00096.3 . Как правило, число после точки (точки) в инвентарных номерах NCBI обозначает версию.

Из NCBI :

ВЕРСИЯ состоит из инвентарного номера записи базы данных, за которым следует точка и номер версии (поэтому ее иногда называют «accession.version»).

спасибо за ответ, а в чем разница между версиями? что нового в последней версии?
@user137927 user137927 Чем больше и лучше эксперименты по секвенированию (а также лучшие алгоритмы сборки последовательности), последовательность генома становится более точной. Он может быть меньше или больше, чем предыдущие версии, и может иметь другую последовательность в определенных регионах и т. д. Я не уверен, что изменения явно задокументированы.

Как ответил WYSIWYG, это обновленные версии.

Разница в длине в основном связана с тем, что более поздние версии упорядочиваются / согласовываются с лучшим оборудованием и методами, обеспечивая результаты, которые лучше отражают реальность.

Некоторые участки генома труднее секвенировать и эффективно выровнять, но с помощью более продвинутых методов это можно сделать.

Секвенировать 100% генома без ошибок и идеального выравнивания пока невозможно, но мы медленно приближаемся к этому.