Каков тип данных образца ДНК?

Какие данные вы получаете при анализе ДНК человека? Если вы хотите хранить их в базе данных, какой тип поля вам понадобится (текст, число, шестнадцатеричный)? И какой должна быть его длина?

Ответы (3)

Предполагая, что вы просматриваете данные, используемые для описания различий для нового человека, в отличие от построения эталонного генома человека:

Файл fastq — это типичный формат данных секвенсора.

Для этого потребуется какое-то текстовое поле, поскольку они могут быть довольно большими, даже для однократного чтения. Если вы имели в виду конкретный секвенсор с очень коротким чтением, вы могли бы использовать поле фиксированной длины для столбца данных, но это, вероятно, не стоит того.

После того, как данные обработаны, данные в настоящее время обычно обмениваются в форме файлов Variant Call Format (файл vcf ), которые документируют только различия по сравнению со сборкой эталонного генома. Это хорошо вписывается в таблицу SQL с относительно небольшими столбцами.

Это будет простая строка текста. Длина, однако, совершенно произвольна и будет зависеть от источника ваших данных последовательности. Допустимой длиной последовательности может быть любое значение от 1 до нескольких миллиардов.

Мы могли бы помочь больше, если бы вы объяснили, откуда берутся данные.

На самом деле вы не собираетесь хранить геном в виде одной длинной строки текста. В зависимости от того, как вы выполняете секвенирование, вы, вероятно, все равно не сможете разрешить повторяющиеся области.

Что гораздо более реалистично, так это то, что вы сохраните все различия, в которых вы уверены, между образцом и эталонной последовательностью.

Если вы используете какой-то чип для генотипирования, вы будете хранить генотипы в каждом локусе.