Какие данные вы получаете при анализе ДНК человека? Если вы хотите хранить их в базе данных, какой тип поля вам понадобится (текст, число, шестнадцатеричный)? И какой должна быть его длина?
Предполагая, что вы просматриваете данные, используемые для описания различий для нового человека, в отличие от построения эталонного генома человека:
Файл fastq — это типичный формат данных секвенсора.
Для этого потребуется какое-то текстовое поле, поскольку они могут быть довольно большими, даже для однократного чтения. Если вы имели в виду конкретный секвенсор с очень коротким чтением, вы могли бы использовать поле фиксированной длины для столбца данных, но это, вероятно, не стоит того.
После того, как данные обработаны, данные в настоящее время обычно обмениваются в форме файлов Variant Call Format (файл vcf ), которые документируют только различия по сравнению со сборкой эталонного генома. Это хорошо вписывается в таблицу SQL с относительно небольшими столбцами.
Это будет простая строка текста. Длина, однако, совершенно произвольна и будет зависеть от источника ваших данных последовательности. Допустимой длиной последовательности может быть любое значение от 1 до нескольких миллиардов.
Мы могли бы помочь больше, если бы вы объяснили, откуда берутся данные.
На самом деле вы не собираетесь хранить геном в виде одной длинной строки текста. В зависимости от того, как вы выполняете секвенирование, вы, вероятно, все равно не сможете разрешить повторяющиеся области.
Что гораздо более реалистично, так это то, что вы сохраните все различия, в которых вы уверены, между образцом и эталонной последовательностью.
Если вы используете какой-то чип для генотипирования, вы будете хранить генотипы в каждом локусе.