Где я могу найти файл со списком генетических различий у людей?

Я не очень разбираюсь в генетике. Для художественного проекта ищу геном человека.

Я прочитал это:

Только около 0,1% генома различается у разных людей, что соответствует примерно 3 миллионам вариантов (также известных как мутации) в среднем человеческом геноме. Это означает, что мы можем создать «файл различий» только для тех мест, где любой конкретный индивидуум отличается от нормального «эталонного» генома. На практике это обычно делается в формате файла .VCF, который в простейшем формате выглядит примерно так:

chr20 14370 rs6054257 GA 29 ПРОЙДЕН 0|0

Где каждая строка использует ~ 45 байт, и вы умножаете это на ~ 3 миллиона вариантов в данном геноме, и вы получаете размер файла .VCF около 135 000 000 байт или ~ 125 мегабайт.

Это верно?

Знаете ли вы базу данных для загрузки файла VCF или чего-то подобного? Было бы замечательно, если бы вы могли предоставить ссылку на файл, упомянутый выше!

Возможно, вам придется переосмыслить свое число, это число 0,1% может быть немного низким ... Если вас интересует генетика, вам может быть интересен этот ответ, biology.stackexchange.com/a/41975/16651 . Кроме того, базы данных NCBI открыты для публики, и вы сможете загрузить из них все, что захотите.
С технической точки зрения (и в терминах SI и IEC ) 135 000 000 — это 135 мегабайт (МБ) или примерно 129 мегабайт (МиБ).

Ответы (1)

Вы пробовали копаться в проекте 1000 геномов?

Попробуйте эту ссылку

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/pilot_data/release/2010_07/exon/snps/