Я не очень разбираюсь в генетике. Для художественного проекта ищу геном человека.
Я прочитал это:
Только около 0,1% генома различается у разных людей, что соответствует примерно 3 миллионам вариантов (также известных как мутации) в среднем человеческом геноме. Это означает, что мы можем создать «файл различий» только для тех мест, где любой конкретный индивидуум отличается от нормального «эталонного» генома. На практике это обычно делается в формате файла .VCF, который в простейшем формате выглядит примерно так:
chr20 14370 rs6054257 GA 29 ПРОЙДЕН 0|0
Где каждая строка использует ~ 45 байт, и вы умножаете это на ~ 3 миллиона вариантов в данном геноме, и вы получаете размер файла .VCF около 135 000 000 байт или ~ 125 мегабайт.
Это верно?
Знаете ли вы базу данных для загрузки файла VCF или чего-то подобного? Было бы замечательно, если бы вы могли предоставить ссылку на файл, упомянутый выше!
Вы пробовали копаться в проекте 1000 геномов?
Попробуйте эту ссылку
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/pilot_data/release/2010_07/exon/snps/
УПП
Осьминог