Формат файла GEN, SNP и аллели

У меня есть несколько вопросов, на которые я, кажется, не могу получить прямой ответ, касающийся .genформата файла, а также биологии в целом.

Формат .genфайла определяет SNP для отдельных лиц.

Поскольку каждый SNP связан с аллелем A и аллелем B, я предполагаю, что файл содержит только причинные SNP, а не связанные SNP, поскольку первые находятся в гене, а последние — нет. Так как каждый SNP в файле имеет ассоциированный ген (фактически генотип, некоторое сочетание аллеля А и В). Правильный?

SNP указывают на одну позицию в геноме, так почему же аллель может быть идентифицирован с последовательностью, превышающей единицу? Или это просто отправная точка, где каждый аллель может иметь разную длину, которая может быть больше 1?

Аллель должен быть конкретным вариантом определенного гена, но в других местах я видел определение «Аллели — это альтернативные формы определенной последовательности». Последнее кажется более логичным, если смотреть на .genфайл, но оно противоречит первому утверждению. Итак, какое правильное определение?

РЕДАКТИРОВАТЬ:

После дальнейших исследований я пришел к выводам, продемонстрированным в строке примера для .genфайла:

--- rs200405949 10023   CCAA    C   0.249   0.745   0.007   0.005   0.84    0.155 ...

---- номер хромосомы, который отсутствует, поскольку его можно вывести из имени файла, принадлежащего каждой хромосоме

rs200405949- ID SNP - один нуклеотид, который может варьироваться между образцами/людьми; обычно есть только два возможных варианта, но в редких случаях есть третий или даже четвертый - которые игнорируются в .gen?

10023- координата/положение пары аллелей (пары оснований) внутри указанной хромосомы. Либо и мажорный, и минорный аллели состоят из одного нуклеотида (в этом случае координата/положение SNP внутри указанной хромосомы может совпадать с этим положением), либо один из аллелей будет иметь более одного нуклеотида, а другой аллель будет такой же, как первый нуклеотид прежнего аллеля - потому что нам нужна только одна отдельная последовательность, а все другие комбинации такой же длины нуклеотида автоматически являются другим аллелем?

CCAA- (обычно?) мажорный аллель - наиболее распространенный аллель (конкретно в данном контексте, одиночный нуклеотид или последовательность нуклеотидов) для данного SNP (или рядом с ним, т.е. как-то связанный с ним) В рассматриваемой когорте, т.е. когорта — это все образцы/люди в эксперименте/ .genфайле (следовательно, количество образцов равно количеству триплетных столбцов после 5-го столбца и далее). Это происходит более чем в 50% случаев ПО СРАВНЕНИЮ с минорным аллелем. По сравнению с минорным аллелем они оба начинаются с C - разве они не должны отличаться в этом положении SNP по определению? Также здесь указано более одного нуклеотида — почему? SNP всегда состоит из одного нуклеотида...

C- (обычно?) минорный аллель - второй по частоте аллель (конкретно в данном контексте одиночный нуклеотид). Сайт SNP может быть биаллельным (в основном выбранным/изученным), и в этом случае мажорный и минорный аллели являются единственными возможными аллелями, но некоторые сайты являются три- или четырехаллельными, и в этом случае у нас нет информации. для третьего (и четвертого) вариантов аллелей, но мы знаем, что они еще менее распространены, чем мажорные и минорные аллели?

0.249 0.745 0.007 0.005 0.84 0.155 ...- каждый последующий триплет значений указывает на вероятность гомозиготного генотипа ССAA/CCAA, гетерозиготного генотипа CCAA/C и гомозиготного генотипа C/C (пары аллелей) по данному SNP соответственно для одной выборки/человека (каждый аллель присутствует на одном из две копии указанной хромосомы, либо материнские, либо отцовские). Если одно из трех значений имеет значение 1, а два других имеют значение 0, я предполагаю, что этот фактический SNP был (каким-то образом) протестирован, поэтому мы можем быть на 100% уверены, какая это пара аллелей, а если нет, то вероятности были каким-то образом выведен (например, из других, возможно, каким-то образом связанных SNP). Что, если в сумме они составляют меньше единицы? Или даже что, если все три значения равны 0?

Верны ли мои выводы? А как же открытый вопрос?

Согласно sciencedaily.com/terms/allele.htm , каждый ген может быть представлен набором аллелей, а аллели — это всего лишь альтернативные формы конкретной однонуклеотидной последовательности; и поскольку они могут иметь 2 разные формы для данного генома (что приводит к 3 различным комбинациям), они называются SNP. Помимо аллелей в гене есть и другие промежуточные одиночные нуклеотиды, но они одинаковы для всей популяции данного (например, человеческого) генома. Истинный?

Ответы (2)

Из того, что я смог найти, .genформат файла для SNP был разработан для программы IMPUTE2 и, как правило, предназначен для гибкого формата файла для данных SNP. Описание формата файла должно быть задокументировано здесь (несколько страниц, указывающих на эту ссылку), к сожалению, эта ссылка не работает / сайт удален. Однако я нашел несколько других описаний формата:

В формате GEN каждый SNP представлен набором из трех вероятностей, соответствующих парам аллелей AA,AB,BB.

отсюда _

Генфайл содержит значения предикторов, по одной строке на предиктор.
--gen-skip указывает, сколько строк заголовка (обычно 0 или 1);
--gen-headers указывает, сколько столбцов заголовков (обычно от 0 до 5).
--gen-probs должно быть 0, 1, 2, 3 или 4:
0 - гаплотипы - значения предикторов должны быть "0 0", "0 1", "1 0" или "1 1"
1 - дозы - предикторы предоставляют (ожидаемое) количество аллелей A
2 - две вероятности - обеспечивают вероятность того, что они являются AA или AB
3 - три вероятности - обеспечивают вероятности того, чтобы быть AA, AB или BB
4 - четыре вероятности - обеспечивают вероятности того, чтобы быть AA, AB, BB или NA , где A и B — аллели A1 и A2

отсюда _

Как уже написал finswimmer в своем ответе, очень важно четко понимать, что считается аллелем в контексте SNP. Для .genформата файла это идентификация основания в данной (SNP) позиции, и, поскольку люди имеют диплоидный геном, аллель конкретного человека может быть одной из трех версий (обычно называемых AA, AB и BB).

Что касается ваших конкретных моментов:

Поскольку каждый SNP связан с аллелем A и аллелем B, я предполагаю, что файл содержит только причинные SNP, а не связанные SNP, поскольку первые находятся в гене, а последние — нет. Так как каждый SNP в файле имеет ассоциированный ген (фактически генотип, некоторое сочетание аллеля А и В). Правильный?

  • Аллели в .genфайле относятся к соответствующим SNP, а не к генам.
  • Нет причин предполагать, что данный .genфайл содержит только определенные SNP; если это происходит, это не связано с форматом данных.
  • SNP в .genфайле обычно не обязательно должны быть связаны с геном.
Я добавил пример, можете ли вы прокомментировать его и ответить на оставшиеся вопросы?

Определение alleleзависит от контекста.

Если вы посмотрите на ДНК одного человека, вы увидите, как правило, две копии каждой аутосомной хромосомы. Каждая копия называется файлом allele. Если вы знаете, посмотрите на последовательность в определенном положении, вы можете сказать, что одно из двух оснований расположено на одном аллеле, а другое на другом аллеле.

Кроме того, есть определение того, alleleсмотрите ли вы на многих людей или на все население. Здесь вы называете allele«как альтернативные формы конкретной последовательности».

Но каким образом SNP, обозначающий один нуклеотид, связан с мажорным и минорным аллелем, если длина любого из них может быть больше, чем on? Означает ли это, что, начиная с определенного положения SNP, это может быть началом либо основного, либо минорного аллеля?