Я собираюсь начать исследовательский проект по биоинформатике, но у меня нет никакого биологического образования.
Я знаю, что мой проект связан с анализом производительности секвенирования ДНК и поиском «оружия», такого как Hadoop, Apache Spark и Apache Flink, поэтому я провел последние пару дней, пытаясь собрать «картину ДНК», прежде чем я получу начал с программирования.
Мое понимание ситуации таково:
Что я упустил/что я сделал не так?
Вот краткий обзор нескольких ошибок в вашем в остальном хорошем анализе:
Не многие биоинформатические приложения используют Hadoop, Apache Spark или Apache Flink. На самом деле, я никогда не слышал об инструментах Apache Spark и Flink, и я видел только двух человек, использующих Hadoop для обработки файлов выравнивания.
На картинке у вас есть обычный конвейер анализа NGS. Это включает в себя выравнивание/сборку, определение вариантов и биологический анализ с соответствующими гипотезами. Сборка/выравнивание — наиболее затратная с вычислительной точки зрения часть, и для этого мы используем либо кластеры высокопроизводительных вычислений, либо масштабируемые облачные сервисы, такие как AWS.
Вам обязательно следует поговорить с биологом, имеющим некоторый вычислительный опыт, чтобы понять причину наших анализов. Как только вы поймете мотивы, ваш вклад станет более актуальным и полезным для сообщества.
Ответ RAM очень хорош, я просто добавлю вычислительную сторону, короткие чтения подвержены ошибкам. Это важно учитывать при выравнивании или сборке. Сами чтения могут быть просто неточными, что мы обнаруживаем, когда несколько операций чтения сильно перекрываются; мы предполагаем, что случайные несоответствия, наблюдаемые только при одном считывании позиции, являются ошибками. Кроме того, если эталонный геном недостаточно близок к образцу, считывания могут быть смещены.
В геномах многих организмов также есть повторяющиеся элементы, которые могут затруднить правильное выравнивание прочтений и создание точного эталонного генома.
И обратите внимание, что может быть гораздо больше расхождений, кроме замен отдельных нуклеотидов, хотя что-либо более сложное может быть обнаружено только с помощью коротких данных чтения. И большинство черт, которые действительно интересно изучать, являются полигенными, поэтому не совсем просто сказать, что одно различие в ДНК вызывает обнаруживаемое различие в фенотипе.
Фил
Билал Акил