У меня есть несколько вопросов, на которые я, кажется, не могу получить прямой ответ, касающийся .gen
формата файла, а также биологии в целом.
Формат .gen
файла определяет SNP для отдельных лиц.
Поскольку каждый SNP связан с аллелем A и аллелем B, я предполагаю, что файл содержит только причинные SNP, а не связанные SNP, поскольку первые находятся в гене, а последние — нет. Так как каждый SNP в файле имеет ассоциированный ген (фактически генотип, некоторое сочетание аллеля А и В). Правильный?
SNP указывают на одну позицию в геноме, так почему же аллель может быть идентифицирован с последовательностью, превышающей единицу? Или это просто отправная точка, где каждый аллель может иметь разную длину, которая может быть больше 1?
Аллель должен быть конкретным вариантом определенного гена, но в других местах я видел определение «Аллели — это альтернативные формы определенной последовательности». Последнее кажется более логичным, если смотреть на .gen
файл, но оно противоречит первому утверждению. Итак, какое правильное определение?
РЕДАКТИРОВАТЬ:
После дальнейших исследований я пришел к выводам, продемонстрированным в строке примера для .gen
файла:
--- rs200405949 10023 CCAA C 0.249 0.745 0.007 0.005 0.84 0.155 ...
---
- номер хромосомы, который отсутствует, поскольку его можно вывести из имени файла, принадлежащего каждой хромосоме
rs200405949
- ID SNP - один нуклеотид, который может варьироваться между образцами/людьми; обычно есть только два возможных варианта, но в редких случаях есть третий или даже четвертый - которые игнорируются в .gen
?
10023
- координата/положение пары аллелей (пары оснований) внутри указанной хромосомы. Либо и мажорный, и минорный аллели состоят из одного нуклеотида (в этом случае координата/положение SNP внутри указанной хромосомы может совпадать с этим положением), либо один из аллелей будет иметь более одного нуклеотида, а другой аллель будет такой же, как первый нуклеотид прежнего аллеля - потому что нам нужна только одна отдельная последовательность, а все другие комбинации такой же длины нуклеотида автоматически являются другим аллелем?
CCAA
- (обычно?) мажорный аллель - наиболее распространенный аллель (конкретно в данном контексте, одиночный нуклеотид или последовательность нуклеотидов) для данного SNP (или рядом с ним, т.е. как-то связанный с ним) В рассматриваемой когорте, т.е. когорта — это все образцы/люди в эксперименте/ .gen
файле (следовательно, количество образцов равно количеству триплетных столбцов после 5-го столбца и далее). Это происходит более чем в 50% случаев ПО СРАВНЕНИЮ с минорным аллелем. По сравнению с минорным аллелем они оба начинаются с C - разве они не должны отличаться в этом положении SNP по определению? Также здесь указано более одного нуклеотида — почему? SNP всегда состоит из одного нуклеотида...
C
- (обычно?) минорный аллель - второй по частоте аллель (конкретно в данном контексте одиночный нуклеотид). Сайт SNP может быть биаллельным (в основном выбранным/изученным), и в этом случае мажорный и минорный аллели являются единственными возможными аллелями, но некоторые сайты являются три- или четырехаллельными, и в этом случае у нас нет информации. для третьего (и четвертого) вариантов аллелей, но мы знаем, что они еще менее распространены, чем мажорные и минорные аллели?
0.249 0.745 0.007 0.005 0.84 0.155 ...
- каждый последующий триплет значений указывает на вероятность гомозиготного генотипа ССAA/CCAA, гетерозиготного генотипа CCAA/C и гомозиготного генотипа C/C (пары аллелей) по данному SNP соответственно для одной выборки/человека (каждый аллель присутствует на одном из две копии указанной хромосомы, либо материнские, либо отцовские). Если одно из трех значений имеет значение 1, а два других имеют значение 0, я предполагаю, что этот фактический SNP был (каким-то образом) протестирован, поэтому мы можем быть на 100% уверены, какая это пара аллелей, а если нет, то вероятности были каким-то образом выведен (например, из других, возможно, каким-то образом связанных SNP). Что, если в сумме они составляют меньше единицы? Или даже что, если все три значения равны 0?
Верны ли мои выводы? А как же открытый вопрос?
Из того, что я смог найти, .gen
формат файла для SNP был разработан для программы IMPUTE2 и, как правило, предназначен для гибкого формата файла для данных SNP. Описание формата файла должно быть задокументировано здесь (несколько страниц, указывающих на эту ссылку), к сожалению, эта ссылка не работает / сайт удален. Однако я нашел несколько других описаний формата:
В формате GEN каждый SNP представлен набором из трех вероятностей, соответствующих парам аллелей AA,AB,BB.
отсюда _
Генфайл содержит значения предикторов, по одной строке на предиктор.
--gen-skip указывает, сколько строк заголовка (обычно 0 или 1);
--gen-headers указывает, сколько столбцов заголовков (обычно от 0 до 5).
--gen-probs должно быть 0, 1, 2, 3 или 4:
0 - гаплотипы - значения предикторов должны быть "0 0", "0 1", "1 0" или "1 1"
1 - дозы - предикторы предоставляют (ожидаемое) количество аллелей A
2 - две вероятности - обеспечивают вероятность того, что они являются AA или AB
3 - три вероятности - обеспечивают вероятности того, чтобы быть AA, AB или BB
4 - четыре вероятности - обеспечивают вероятности того, чтобы быть AA, AB, BB или NA , где A и B — аллели A1 и A2
отсюда _
Как уже написал finswimmer в своем ответе, очень важно четко понимать, что считается аллелем в контексте SNP. Для .gen
формата файла это идентификация основания в данной (SNP) позиции, и, поскольку люди имеют диплоидный геном, аллель конкретного человека может быть одной из трех версий (обычно называемых AA, AB и BB).
Что касается ваших конкретных моментов:
Поскольку каждый SNP связан с аллелем A и аллелем B, я предполагаю, что файл содержит только причинные SNP, а не связанные SNP, поскольку первые находятся в гене, а последние — нет. Так как каждый SNP в файле имеет ассоциированный ген (фактически генотип, некоторое сочетание аллеля А и В). Правильный?
.gen
файле относятся к соответствующим SNP, а не к генам..gen
файл содержит только определенные SNP; если это происходит, это не связано с форматом данных..gen
файле обычно не обязательно должны быть связаны с геном.Определение allele
зависит от контекста.
Если вы посмотрите на ДНК одного человека, вы увидите, как правило, две копии каждой аутосомной хромосомы. Каждая копия называется файлом allele
. Если вы знаете, посмотрите на последовательность в определенном положении, вы можете сказать, что одно из двух оснований расположено на одном аллеле, а другое на другом аллеле.
Кроме того, есть определение того, allele
смотрите ли вы на многих людей или на все население. Здесь вы называете allele
«как альтернативные формы конкретной последовательности».
пользователь2340939