Итак, для проекта, над которым я работал (другая история), я искал проект HapMap и их бесплатные онлайн-файлы. В своем файле README они говорят о том, что для каждого файла легенды для каждой хромосомы / региона есть идентификатор rs, аллель, закодированная 0, 1, и положение пары оснований.
Теперь, посмотрев на это некоторое время, становится совершенно очевидно, что положение пары оснований означает, где расположен каждый нуклеотид в генетической последовательности... это правильно?
И что означают rs id и другие слова? Любая помощь будет принята с благодарностью!
Вот ссылка на файл README, в этом же каталоге лежат файлы об участниках, только включая SNP (снипы!).
rs id — это эталонный идентификатор кластера SNP, см. здесь . По сути, это уникальный идентификатор.
Эта таблица взята по вашей ссылке:
rs position 0 1
rs11089130 14431347 C G
rs738829 14432618 A G
rs915674 14433624 A G
Коды аллелей - это 3-й и 4-й столбцы. SNP — это сайт, в котором разные основания находятся в разных версиях одного и того же гена (разные версии генов — это аллели). Для данного SNP различные аллели обозначаются как 0 или 1 аллель. Таким образом, в таблице первый SNP, rs11089130, имеет две аллели: аллель 0 имеет C в позиции SNP (14431347), тогда как аллель 1 имеет G в этой позиции. Код аллеля не имеет биологического значения.
Я не уверен, что произошло бы, если бы в SNP было три аллеля, но предположительно тогда также был бы SNP, закодированный как 2 .
Редактировать: Аллель 0 является остатком эталонного генома. Аллель 1 представляет собой изучаемый остаток, SNP.
Хиггс241
тердон
0
— это остаток, обнаруженный в эталонном геноме1
, и остаток, обнаруженный в других. Пожалуйста, не ссылайтесь на «мутированные аллели», вариации - это норма...Бли
Алан Бойд
Бли