Я написал статью об анализе последовательности ДНК. В этой статье делается попытка использовать байесовское моделирование для набора последовательностей ДНК. Скорее всего, он попадет либо в статистический журнал, либо, что более вероятно, в журнал по биоинформатике. Меня беспокоит то, что биологи могут возразить против некоторых формулировок во введении.
Я пытаюсь установить связь между открытием мотива De Novo и моделированием последовательностей. Возможно, это немного натянуто. Например, я использую такие формулировки, как «анализ набора последовательностей ДНК, имеющих биологическое значение, исключительно путем сосредоточения внимания на мотивах, содержащихся в них, потенциально отбрасывает ценную информацию, например, возможные долгосрочные корреляции между положениями нуклеотидов в последовательностях». Кроме того, «альтернативный и, возможно, дополнительный подход состоит в том, чтобы рассматривать последовательность как единую единицу и пытаться провести с ней прямой статистический анализ ... Этот подход используется в этой статье, в которой не используются марковские методы. Вместо этого, он пытается смоделировать структуру корреляции по всей последовательности».
Таким образом, вопрос заключается в том, не лучше ли попытаться установить явную связь, рискуя сказать что-то неверное и, как правило, преувеличенное, вместо того, чтобы просто сказать (что кажется немного неубедительным), что эта проблема классификации последовательностей связана с Проблема обнаружения мотива Де Ново и остановимся на этом. Комментарии?
Я включаю первые несколько абзацев введения ниже. Это включает в себя все соответствующие языки.
Я готов отправить свой текущий черновик всем, кто хочет узнать больше о контексте. Однако я не хочу публиковать публичную ссылку на него.
Мотивы последовательности ДНК представляют собой образцы последовательности нуклеотидов, которые, как предполагается, имеют биологическое значение. Часто они указывают сайты связывания, специфичные для последовательности, для белков, таких как нуклеазы и факторы транскрипции (TF). Другие участвуют в важных процессах на уровне РНК, включая связывание рибосом, процессинг мРНК (сплайсинг, редактирование, полиаденилирование) и терминацию транскрипции. Открытие мотивов - очень активная область исследовательского интереса. Так называемое «вычислительное открытие de novo», пожалуй, самое популярное, когда при наличии только набора последовательностей ДНК используется алгоритм для идентификации кандидатов на общие мотивы. Это можно рассматривать как задачу поиска набора непересекающихся, приблизительно совпадающих подстрок при заданном начальном наборе строк. Это очень трудная проблема.
С более общей точки зрения анализ последовательности ДНК часто проводится с использованием мотивов последовательности ДНК. Резонно задать вопрос: что делает последовательность мотивом? С биологической точки зрения мотив — это просто наименьший идентифицируемый компонент последовательности чего-то большего. Этот подкомпонент можно рассматривать как наименьшую идентифицируемую часть функциональности, связанную с основной биологией. Поэтому анализ последовательности часто фокусируется на идентификации этих мотивов. Однако эти мотивы, как правило, очень короткие, поэтому анализ набора последовательностей ДНК, имеющих биологическое значение, исключительно путем сосредоточения внимания на мотивах, содержащихся в них, потенциально отбрасывает ценную информацию, например, возможные долгосрочные корреляции между положениями нуклеотидов в последовательностях.
Альтернативный и, возможно, дополнительный подход состоит в том, чтобы рассматривать последовательность как единую единицу и пытаться провести с ней прямой статистический анализ. Этот подход используется реже. Одна из причин заключается в том, что такие последовательности могут быстро стать слишком большими и плохо подходят для марковских подходов. Этот подход используется в данной статье, которая не использует марковские методы. Вместо этого он пытается смоделировать структуру корреляции по всей последовательности.
Мы делаем это, подбирая подходящую байесовскую модель к этому набору, используя выбор байесовской модели. Как отмечалось выше, нашим основным обоснованием этой модели является предположение, что положения нуклеотидов в этом наборе коррелируют между собой. Помня об этом допущении, мы строим семейство вероятностных распределений для получения этой корреляционной информации, описанной в подразделе 2.1.
Журналы по биоинформатике прекрасно справляются с такого рода статьями. Если вы нацелены на такой журнал, как Bioinformatics , то вы можете быть настолько техническими, насколько хотите (и, вероятно, должны). Биологи, которые читают эти журналы, скорее всего, поймут терминологию.
Даже традиционные журналы по экспериментальной биологии, такие как Nucleic Acids Research , теперь включают раздел по вычислительной биологии, который может стать идеальной мишенью для статьи об анализе мотивов ДНК. Однако, если вы подаете заявку в такой журнал, вы должны учитывать, что целевая аудитория может быть шире, чем типичный журнал по биоинформатике.
Если вы стремитесь к тому, чтобы биологи поняли концепции, вы должны признать, что будут биологи с очень разной степенью понимания биоинформатики. Например, как упоминалось в некоторых комментариях, некоторые биологи могут понимать, что такое скрытые марковские модели, однако другие, возможно, никогда раньше не слышали этот термин. Я бы посоветовал, если вы нацеливаетесь на журнал, посвященный биологии, постарайтесь объяснить вещи очень доступно .простые термины, соединяющие концепции с примерами из реальной жизни. Вы можете использовать эти пояснения в качестве введения к более подробным описаниям. В зависимости от журнала вы можете поместить технические детали, включая формулы, в дополнительный материал. Отсутствие технических деталей в основной рукописи сделает ее доступной для широкого круга читателей, но наличие подробностей в дополнительных материалах придаст вашей статье строгости и позволит любому, кто интересуется вашим исследованием, проверить детали.
резонирующий
Фахим Мита
резонирующий