Как преобразовать формат файла FASTQ в формат файла GTF?

У меня много файлов FASTQ (FASTQ — это стандарт для хранения результатов высокопроизводительных инструментов секвенирования, таких как анализатор генома Illumina), и мне нужно преобразовать их в формат GTF (gtf — формат файла, используемый для хранения информации о структуре генов, которая существенной особенностью является его валидируемость: по последовательности и GTF-файлу можно проверить правильность формата, что значительно снижает проблемы с обменом данными между группами).

Я предполагаю, что (если эти форматы являются стандартами популярных файлов) должно существовать какое-то программное обеспечение, которое легко преобразует информацию из FASTQфайлов в GTFфайлы. Кто-нибудь слышал о таком (возможно, с открытым исходным кодом) программном обеспечении? Я знаком R statistical packageи SASмогу учиться Pythonна лету.

Спасибо за любую помощь.

Быстрый поиск в Google дает множество результатов, не говоря уже об отзывах снизу. Пожалуйста, отредактируйте свой вопрос и укажите больше о том, что у вас есть, чего у вас нет , что вы пытаетесь сделать, с какими ресурсами вам приходится работать, каковы ваши временные ограничения, каковы ваши конечные цели и т. д. Здесь абсолютно не гарантирует , что кто-либо здесь сможет ответить на него или что он будет здесь по теме , поскольку вопросы «слишком широкие» будут закрыты.

Ответы (4)

Вы действительно должны прочитать об обоих этих форматах файлов. Как упоминал swbarnes , FASTQ и GTF содержат разную информацию. GTF хранит аннотацию эталонной последовательности. Например, GTF для последовательности генома будет содержать информацию о расположении таких признаков , как гены, транскрипты, экзоны, стартовый кодон и т. д.

FASTQ хранит последовательность чтения, полученную в результате секвенирования, вместе с показателями качества, соответствующими каждой позиции.

Как упоминалось другими, просить взаимное преобразование этих форматов файлов не имеет смысла.


Я предполагаю, что вы спрашиваете: « Как получить новые аннотации с файлом FASTQ под рукой? »

Это также зависит от того, что вы хотите аннотировать .

Шестой столбец в файле GTF относится к счету ; вы можете назначать значения выражений различным функциям. Вы можете вычислить выражение, используя количество прочтений. Если это считывания RNAseq, то экспрессию можно измерить с помощью таких пакетов, как tophat-cufflinks , RNAstar или некоторых других.

Если вы выполняете ChIP-Seq, вы можете создать GTF с новой функцией, называемой TFBS (сайт связывания факторов транскрипции), и аннотировать местоположения. Популярным пакетом, используемым для анализа ChIP-Seq, является MACS , который считывает данные и выводит TFBS в виде файла BED , в котором также хранятся координаты. Вы можете конвертировать BED в GTF . Вы также можете назначать оценки на основе количества прочтений в разных TFBS.

Если у вас нет эталонного генома или если аннотация эталонного генома неполная, вам следует сначала собрать свои риды . Если у вас есть референсный геном, вы можете воспользоваться референсной сборкой транскриптов, чтобы получить новые транскрипты или варианты сплайсинга; Запонки делают это.

Если у вас нет эталонного генома, вам следует выполнить сборку транскриптома de novo и аннотировать транскриптом стартовыми кодонами или другими характеристиками обработанных транскриптов. Velvet и Trinity — популярные пакеты, которые собираются заново.

Ваш вопрос не очень ясен. Каким должно быть содержимое вашего файла GTF? Как правило, файлы GTF содержат информацию о расположении экзонов в наборе последовательностей ДНК. Определение местоположения и структуры экзона/интрона генов - это не простая техническая задача (т.е. «конверсия», как указано в вашем вопросе), а скорее большая область активных исследований. Аннотирование генов предполагает использование статистического моделирования ( ab initioпредикторы генов), сопоставление экспериментальных данных (EST, кДНК и, возможно, чтения Illumina RNA-Seq) и, в некоторых случаях, ручное уточнение компьютерных прогнозов. Если вы работаете с модельным организмом, таким как человек, мышь или плодовая муха, надежные файлы GTF легко доступны для загрузки из общедоступных баз данных. Если вы не работаете с модельным организмом, то многим придется проделать большую работу, чтобы аннотировать геном с нуля.

Или, возможно, вы хотите аннотировать новые изоформы альтернативного сплайсинга для известных генов?

Без дополнительной информации нам будет трудно помочь вам понять, как обрабатывать ваши необработанные данные (Illumina читает в формате FASTQ) в файл GTF, который отвечает на некоторые интересующие вас биологические вопросы.

Fastq содержит последовательности. GTF содержит координаты того, где такие функции, как экзоны, попадают в эталонную последовательность. Вы не можете преобразовать их друг в друга, это не имеет смысла.

Так что невозможно создать файл gtf, когда у меня есть информация только из файла fastq?
Если это новый организм, и у вас есть очень хороший большой набор прочтений RNAseq, вы теоретически можете привести его в соответствие со своим эталоном и сделать из него gtf. А вообще нет, вы хотите скачать подходящий для вашего организма gtf, а не сделать свой.
Нет, я хочу создать свой собственный файл. У меня есть очень хороший большой набор считываний RNAseq, а файла gtf не существует. Вот в чем вопрос :)
Вы не можете просто конвертировать. Для начала вы должны выровняться по своему эталону, как говорит Даниэль, создание gtf с нуля — большой проект, и чтобы сделать это правильно, потребуется много работы. Но если это то, что вам нужно сделать, то это то, что вам нужно сделать.

Пакет Tuxedo Suite (Tophat, Bowtie и запонки), используемый для обработки данных RNA_seq, при условии, что он является источником ваших файлов .fastq, должен работать на вас.

https://ccb.jhu.edu/software/tophat/index.shtml