У меня много файлов FASTQ (FASTQ — это стандарт для хранения результатов высокопроизводительных инструментов секвенирования, таких как анализатор генома Illumina), и мне нужно преобразовать их в формат GTF (gtf — формат файла, используемый для хранения информации о структуре генов, которая существенной особенностью является его валидируемость: по последовательности и GTF-файлу можно проверить правильность формата, что значительно снижает проблемы с обменом данными между группами).
Я предполагаю, что (если эти форматы являются стандартами популярных файлов) должно существовать какое-то программное обеспечение, которое легко преобразует информацию из FASTQ
файлов в GTF
файлы. Кто-нибудь слышал о таком (возможно, с открытым исходным кодом) программном обеспечении? Я знаком R statistical package
и SAS
могу учиться Python
на лету.
Спасибо за любую помощь.
Вы действительно должны прочитать об обоих этих форматах файлов. Как упоминал swbarnes , FASTQ и GTF содержат разную информацию. GTF хранит аннотацию эталонной последовательности. Например, GTF для последовательности генома будет содержать информацию о расположении таких признаков , как гены, транскрипты, экзоны, стартовый кодон и т. д.
FASTQ хранит последовательность чтения, полученную в результате секвенирования, вместе с показателями качества, соответствующими каждой позиции.
Как упоминалось другими, просить взаимное преобразование этих форматов файлов не имеет смысла.
Это также зависит от того, что вы хотите аннотировать .
Шестой столбец в файле GTF относится к счету ; вы можете назначать значения выражений различным функциям. Вы можете вычислить выражение, используя количество прочтений. Если это считывания RNAseq, то экспрессию можно измерить с помощью таких пакетов, как tophat-cufflinks , RNAstar или некоторых других.
Если вы выполняете ChIP-Seq, вы можете создать GTF с новой функцией, называемой TFBS (сайт связывания факторов транскрипции), и аннотировать местоположения. Популярным пакетом, используемым для анализа ChIP-Seq, является MACS , который считывает данные и выводит TFBS в виде файла BED , в котором также хранятся координаты. Вы можете конвертировать BED в GTF . Вы также можете назначать оценки на основе количества прочтений в разных TFBS.
Если у вас нет эталонного генома или если аннотация эталонного генома неполная, вам следует сначала собрать свои риды . Если у вас есть референсный геном, вы можете воспользоваться референсной сборкой транскриптов, чтобы получить новые транскрипты или варианты сплайсинга; Запонки делают это.
Если у вас нет эталонного генома, вам следует выполнить сборку транскриптома de novo и аннотировать транскриптом стартовыми кодонами или другими характеристиками обработанных транскриптов. Velvet и Trinity — популярные пакеты, которые собираются заново.
Ваш вопрос не очень ясен. Каким должно быть содержимое вашего файла GTF? Как правило, файлы GTF содержат информацию о расположении экзонов в наборе последовательностей ДНК. Определение местоположения и структуры экзона/интрона генов - это не простая техническая задача (т.е. «конверсия», как указано в вашем вопросе), а скорее большая область активных исследований. Аннотирование генов предполагает использование статистического моделирования ( ab initioпредикторы генов), сопоставление экспериментальных данных (EST, кДНК и, возможно, чтения Illumina RNA-Seq) и, в некоторых случаях, ручное уточнение компьютерных прогнозов. Если вы работаете с модельным организмом, таким как человек, мышь или плодовая муха, надежные файлы GTF легко доступны для загрузки из общедоступных баз данных. Если вы не работаете с модельным организмом, то многим придется проделать большую работу, чтобы аннотировать геном с нуля.
Или, возможно, вы хотите аннотировать новые изоформы альтернативного сплайсинга для известных генов?
Без дополнительной информации нам будет трудно помочь вам понять, как обрабатывать ваши необработанные данные (Illumina читает в формате FASTQ) в файл GTF, который отвечает на некоторые интересующие вас биологические вопросы.
Fastq содержит последовательности. GTF содержит координаты того, где такие функции, как экзоны, попадают в эталонную последовательность. Вы не можете преобразовать их друг в друга, это не имеет смысла.
Пакет Tuxedo Suite (Tophat, Bowtie и запонки), используемый для обработки данных RNA_seq, при условии, что он является источником ваших файлов .fastq, должен работать на вас.
МэттДмо