Комментарий к введению в статью по биоинформатике

Я написал статью об анализе последовательности ДНК. В этой статье делается попытка использовать байесовское моделирование для набора последовательностей ДНК. Скорее всего, он попадет либо в статистический журнал, либо, что более вероятно, в журнал по биоинформатике. Меня беспокоит то, что биологи могут возразить против некоторых формулировок во введении.

Я пытаюсь установить связь между открытием мотива De Novo и моделированием последовательностей. Возможно, это немного натянуто. Например, я использую такие формулировки, как «анализ набора последовательностей ДНК, имеющих биологическое значение, исключительно путем сосредоточения внимания на мотивах, содержащихся в них, потенциально отбрасывает ценную информацию, например, возможные долгосрочные корреляции между положениями нуклеотидов в последовательностях». Кроме того, «альтернативный и, возможно, дополнительный подход состоит в том, чтобы рассматривать последовательность как единую единицу и пытаться провести с ней прямой статистический анализ ... Этот подход используется в этой статье, в которой не используются марковские методы. Вместо этого, он пытается смоделировать структуру корреляции по всей последовательности».

Таким образом, вопрос заключается в том, не лучше ли попытаться установить явную связь, рискуя сказать что-то неверное и, как правило, преувеличенное, вместо того, чтобы просто сказать (что кажется немного неубедительным), что эта проблема классификации последовательностей связана с Проблема обнаружения мотива Де Ново и остановимся на этом. Комментарии?

Я включаю первые несколько абзацев введения ниже. Это включает в себя все соответствующие языки.

Я готов отправить свой текущий черновик всем, кто хочет узнать больше о контексте. Однако я не хочу публиковать публичную ссылку на него.

Мотивы последовательности ДНК представляют собой образцы последовательности нуклеотидов, которые, как предполагается, имеют биологическое значение. Часто они указывают сайты связывания, специфичные для последовательности, для белков, таких как нуклеазы и факторы транскрипции (TF). Другие участвуют в важных процессах на уровне РНК, включая связывание рибосом, процессинг мРНК (сплайсинг, редактирование, полиаденилирование) и терминацию транскрипции. Открытие мотивов - очень активная область исследовательского интереса. Так называемое «вычислительное открытие de novo», пожалуй, самое популярное, когда при наличии только набора последовательностей ДНК используется алгоритм для идентификации кандидатов на общие мотивы. Это можно рассматривать как задачу поиска набора непересекающихся, приблизительно совпадающих подстрок при заданном начальном наборе строк. Это очень трудная проблема.

С более общей точки зрения анализ последовательности ДНК часто проводится с использованием мотивов последовательности ДНК. Резонно задать вопрос: что делает последовательность мотивом? С биологической точки зрения мотив — это просто наименьший идентифицируемый компонент последовательности чего-то большего. Этот подкомпонент можно рассматривать как наименьшую идентифицируемую часть функциональности, связанную с основной биологией. Поэтому анализ последовательности часто фокусируется на идентификации этих мотивов. Однако эти мотивы, как правило, очень короткие, поэтому анализ набора последовательностей ДНК, имеющих биологическое значение, исключительно путем сосредоточения внимания на мотивах, содержащихся в них, потенциально отбрасывает ценную информацию, например, возможные долгосрочные корреляции между положениями нуклеотидов в последовательностях.

Альтернативный и, возможно, дополнительный подход состоит в том, чтобы рассматривать последовательность как единую единицу и пытаться провести с ней прямой статистический анализ. Этот подход используется реже. Одна из причин заключается в том, что такие последовательности могут быстро стать слишком большими и плохо подходят для марковских подходов. Этот подход используется в данной статье, которая не использует марковские методы. Вместо этого он пытается смоделировать структуру корреляции по всей последовательности.

Мы делаем это, подбирая подходящую байесовскую модель к этому набору, используя выбор байесовской модели. Как отмечалось выше, нашим основным обоснованием этой модели является предположение, что положения нуклеотидов в этом наборе коррелируют между собой. Помня об этом допущении, мы строим семейство вероятностных распределений для получения этой корреляционной информации, описанной в подразделе 2.1.

Технически я не биолог, я биоинженер, но даже биологи понимают ограничения HMM для поиска мотивов. Если вы можете уловить консервативные дисульфидные мосты на большом расстоянии и тому подобное, в этом есть ценность. Вы не написали ничего, что могло бы взъерошить перья, которые не нуждаются в хорошем взъерошении.
@JeremyKemball Спасибо за отзыв. Подумайте о том, чтобы написать официальный ответ, если вам удобно это делать. Однако не совсем уверен, что такое «дисульфидные мосты».
Остатки цистеина образуют связи -SS- на длинных участках последовательности. Это большая структурно-функциональная особенность, которую трудно обнаружить с помощью марковских моделей. Так что вы не имеете в виду ничего сверхъестественного. Официально отвечать не буду, так как не особо работаю в этой сфере. Может я что-то упускаю? Кто знает.

Ответы (1)

Журналы по биоинформатике прекрасно справляются с такого рода статьями. Если вы нацелены на такой журнал, как Bioinformatics , то вы можете быть настолько техническими, насколько хотите (и, вероятно, должны). Биологи, которые читают эти журналы, скорее всего, поймут терминологию.

Даже традиционные журналы по экспериментальной биологии, такие как Nucleic Acids Research , теперь включают раздел по вычислительной биологии, который может стать идеальной мишенью для статьи об анализе мотивов ДНК. Однако, если вы подаете заявку в такой журнал, вы должны учитывать, что целевая аудитория может быть шире, чем типичный журнал по биоинформатике.

Если вы стремитесь к тому, чтобы биологи поняли концепции, вы должны признать, что будут биологи с очень разной степенью понимания биоинформатики. Например, как упоминалось в некоторых комментариях, некоторые биологи могут понимать, что такое скрытые марковские модели, однако другие, возможно, никогда раньше не слышали этот термин. Я бы посоветовал, если вы нацеливаетесь на журнал, посвященный биологии, постарайтесь объяснить вещи очень доступно .простые термины, соединяющие концепции с примерами из реальной жизни. Вы можете использовать эти пояснения в качестве введения к более подробным описаниям. В зависимости от журнала вы можете поместить технические детали, включая формулы, в дополнительный материал. Отсутствие технических деталей в основной рукописи сделает ее доступной для широкого круга читателей, но наличие подробностей в дополнительных материалах придаст вашей статье строгости и позволит любому, кто интересуется вашим исследованием, проверить детали.

Привет, я читал это пару раз, но, похоже, это не касается моего вопроса. Кажется, вы отвечаете на вопрос, которого я не задавал, например, где лучше разместить такую ​​бумагу. Я задаю довольно конкретный вопрос (возможно, не слишком хорошо сформулированный), который можно резюмировать предложением «Я пытаюсь установить связь между открытием мотива De Novo и моделированием последовательностей». Короче говоря, мне интересно, будут ли утверждения, которые я делаю во вступлении (в цитатах), считаться спорными или нежелательными.
Привет. Да, возможно, я не понял вашей проблемы. Я думал, что цитируемая часть была примером типа описания, которое вы могли бы привести. Мой ответ был больше похож на то, как вы обычно должны подходить к написанию журнала, ориентированного на биологов. Если вы спрашиваете, должен ли этот конкретный фрагмент текста быть достаточно ясен для биологов, то я считаю, что да. Для биологов, интересующихся факторами транскрипции и другими темами, связанными с последовательностями, это должно быть легко понять.
Верно. Что ж, меня беспокоило не то, поймут ли это биологи (я думаю, да), а то, будут ли они возражать против этого. :-)
Не думаю, что они будут возражать. Я имею в виду, что те, кто не очень разбирается в теории, оценят простоту. Остальные, можете проверить более подробные описания. Это также в значительной степени зависит от того, кто является вашей целевой аудиторией! Может быть, мне следует обновить свой ответ некоторыми из этих мыслей? Что вы думаете?
Обновление вашего ответа звучит разумно. Часть моего вопроса, неявно, заключалась в том, являются ли мои наблюдения общепринятой мудростью. См. комментарии к моему вопросу Джереми, которые очень точны.