Я думал, что это просто разные форматы одних и тех же данных.
Но, похоже, нет способа преобразовать данные SNP (однонуклеотидный полиморфизм) в данные STR (короткий тандемный повтор). Я прав?
Насколько я понимаю, SNP - это, по сути, «разница» между некоторой базовой человеческой ДНК (частями, которые никогда не меняются) и данной ДНК. В то время как STR представляют собой нити ДНК, которые различаются между людьми.
Но если SNP достаточно (т.е. все), вывести STR было бы тривиально, верно?
Например, в настоящее время 23andMe тестирует весь митохондриальный геном. Означает ли это, что можно легко вывести STR?
Решение в названии!
SNP : однонуклеотидный полиморфизм
Название говорит нам, что это изменение затрагивает один единственный нуклеотид и что их может быть несколько ( полиморфизм может быть переписан как несколько форм ).
[SNP] — это вариация последовательности ДНК, возникающая, когда один нуклеотид — A, T, C или G — в геноме (или другая общая последовательность) различается между представителями биологического вида или парными хромосомами человека.
Так, например, если вы возьмете 8 человек и секвенируете их ген XYZ, вы можете найти в определенном локусе (= положении) гена:
Индивидуальный 1: AAGGTG C AGCAGTC
Индивидуальный 2: AAGGTG T AGCAGTC
Индивидуальный 3: AAGGTG T AGCAGTC Индивидуальный 4: AAGGTG T AGCAGTC Индивидуальный 5 : AAGGTG C AGCAGTC Индивидуальный 6: AAGGTG C AGCAGTC Индивидуальный 7: AAGGTG T AGCAGTC Индивидуальный 8: AAGGTG T AGCAGTC
Позиция, выделенная жирным шрифтом, является SNP. В этом случае у нас есть только C или T (и это дает 2 разных аллеля для гена XYZ).
На этой странице Университета Юты есть очень четкая анимация SNP.
STR : короткий тандемный повтор.
Это короткие повторяющиеся последовательности. Они в тандеме , то есть один за другим.
STR состоят из нескольких (2-6) нуклеотидов, которые повторяются несколько (5-100) раз.
Например, на этой странице Аризонского университета приводится пример D7S280, одного STR с последовательностью (GATA) n (то есть GATA повторяется n раз)
1 aatttttgta ttttttttag agacggggtt tcaccatgtt ggtcaggctg actatggagt
61 tattttaagg ttaatatata taaagggtat gatagaacac ttgtcatagt ttagaacgaa
121 ctaacgatag atagatagat agatagatag atagatagat agatagatag atagacagat
181 tgatagtttt tttttatctc actaaatagt ctatagtaaa catttaatta ccaatatttg
241 gtgcaattct gtcaatgagg ataaatgtgg aatcgttata attcttaaga atatatattc
301 cctctgagtt tttgatacct cagattttaa ggcc
В этом случае различия между людьми заключаются в количестве повторений последовательности.
CACT CACT CACT
(3 раза) и у кого-то еще CACT CACT CACT CACT
(4 раза). SNP - это мутации в одном единственном основании.
Эмори
Злой ученый
Вануанец
Эмори