Какова специфичность нити эталонного генома?

Это простой вопрос, но я встречал многих людей, которые задавались этим вопросом: является ли эталонный геном положительным или отрицательным? Действительно, у меня были жаркие споры по тому же вопросу.

Так вот, чтобы положить все эти вопросы в покое.

Является ли эталонный геном положительной или отрицательной цепью? И почему так.

Кустав. Спасибо за ваши усилия; это весьма похвально. IMO Q/A, подобные этому, которые предназначены для использования в качестве справочных материалов, могут быть превращены в вики сообщества . Это делает сообщения легко редактируемыми без особых требований к репутации; Обратной стороной является то, что вы не получаете очков репутации. Это всего лишь предложение, и вам решать, хотите вы этого или нет.
Сделанный! Я раньше не замечал такой опции!
@WYSIWYG — почему этот вопрос является вики сообщества? Это неточно и основано на ложном предположении, как ясно показывает мой ответ.
@David Пост звучал как популярный вопрос, на который можно дать авторитетный ответ, и поэтому я предложил CW. Кстати, предположение не совсем неверно.

Ответы (3)

Прежде всего, специфичность эталонной цепи генома называется смысловой (положительная цепь) или антисмысловой (отрицательная цепь). Теперь давайте рассмотрим данные секвенирования или файлы FASTQ. Когда мы выравниваем чтения, результирующий файл SAM или BAM имеет столбец, указывающий информацию о цепочке, мы обычно видим + или - цепочку.

Для получения дополнительной информации об именах цепей вот несколько неверная заметка из вики-статьи в разделе смысл (молекулярная биология) .

Названия нитей на самом деле зависят от того, в каком направлении вы записываете последовательность, содержащую информацию о белках («смысловая» информация), а не от того, какая нить находится сверху или снизу (это произвольно). Единственная реальная биологическая информация, важная для мечения нитей, — это расположение 5'-фосфатной группы и 3'-гидроксильной группы, поскольку эти концы определяют направление транскрипции и трансляции. Последовательность 5' CGCTAT 3' эквивалентна последовательности, записанной как 3' TATCGC 5', если отмечены 5' и 3' концы. Если концы не помечены, принято считать, что последовательность записана в направлении от 5' к 3'. Цепь Уотсона относится к верхней нити от 5 'до 3' (5' → 3'), тогда как нить Крика относится к нижней нити от 5' до 3' (3' ← 5'). ).[4] Цепи Уотсона и Крика могут быть как смысловыми, так и антисмысловыми цепями в зависимости от гена, последовательности которого отображаются в базе данных последовательностей генома. Например, YEL021W, псевдоним гена URA3, используемый в базе данных NCBI, определяет, что этот ген расположен на 21-й открытой рамке считывания (ORF) от центромеры левого плеча (L) дрожжевой (Y) хромосомы номер V (E ), и что цепь, кодирующая экспрессию, представляет собой цепь Уотсона (W). YKL074C определяет 74-ю ORF слева от центромеры хромосомы XI и обозначает кодирующую нить из цепи Крика (C). Также широко используется другой сбивающий с толку термин, относящийся к цепям «Плюс» и «Минус». Независимо от того, является ли цепочка смысловой (положительной) или антисмысловой (отрицательной), последовательность запросов по умолчанию в выравнивании NCBI BLAST представляет собой цепочку «Плюс». [4] Цепи Уотсона и Крика могут быть как смысловыми, так и антисмысловыми в зависимости от гена, последовательности которого отображаются в базе данных последовательностей генома. Например, YEL021W, псевдоним гена URA3, используемый в базе данных NCBI, определяет, что этот ген расположен на 21-й открытой рамке считывания (ORF) от центромеры левого плеча (L) дрожжевой (Y) хромосомы номер V (E ), и что цепь, кодирующая экспрессию, представляет собой цепь Уотсона (W). YKL074C определяет 74-ю ORF слева от центромеры хромосомы XI и обозначает кодирующую нить из цепи Крика (C). Также широко используется другой сбивающий с толку термин, относящийся к цепям «Плюс» и «Минус». Независимо от того, является ли цепочка смысловой (положительной) или антисмысловой (отрицательной), последовательность запросов по умолчанию в выравнивании NCBI BLAST представляет собой цепочку «Плюс». [4] Цепи Уотсона и Крика могут быть как смысловыми, так и антисмысловыми в зависимости от гена, последовательности которого отображаются в базе данных последовательностей генома. Например, YEL021W, псевдоним гена URA3, используемый в базе данных NCBI, определяет, что этот ген расположен на 21-й открытой рамке считывания (ORF) от центромеры левого плеча (L) дрожжевой (Y) хромосомы номер V (E ), и что цепь, кодирующая экспрессию, представляет собой цепь Уотсона (W). YKL074C определяет 74-ю ORF слева от центромеры хромосомы XI и обозначает кодирующую нить из цепи Крика (C). Также широко используется другой сбивающий с толку термин, относящийся к цепям «Плюс» и «Минус». Независимо от того, является ли цепочка смысловой (положительной) или антисмысловой (отрицательной), последовательность запросов по умолчанию в выравнивании NCBI BLAST представляет собой цепочку «Плюс».

Хотя правильно говорят

  1. Watson = Sense = Plus Strands
  2. Crick = антисмысл = отрицательные нити

Удовлетворительный ответ / соглашение предоставлено / предложено в этой статье PMC, посвященной терминологии нитей Уотсона и Крика.

Ниже приведены некоторые интересные выдержки из публикации:

Самое раннее упоминание, которое мы смогли найти о «цепи Уотсона» и «цепи Крика», несколько насмешливо и происходит из пары статей 1967 года Вацлава Шибальского и его коллег. Они связали две нити ДНК фага λ с синтетическим полинуклеотидом поли(IG), который имеет сродство к областям, богатым цитозином. Затем они разделили две нити по плотности, которая, как оказалось, определялась количеством связанного поли(IG). В градиенте плотности хлорида цезия нить с более связанным поли (IG) была более плотной и тяжелой, чем ее комплементарная. Поскольку «плотная» нить была богата цитозином, Шибальский и его коллеги назвали ее «цепью С». По логике вещей, комплементарная нить, богатая гуанином, должна была быть «G-цепью». Вместо этого его окрестили «прядь W».

Таким образом, авторы отмечают, что пряди начали свое терминологическое путешествие с того, что их роли поменялись местами: цепочка Крика указывала тяжелую цепочку (с IG), а цепочка Уотсона указывала более легкую.

Они также отмечают, что современная терминология модели WC непроизвольно основана на текущем соглашении о горизонтальном рисовании, когда одна прядь помещается сверху, а другая внизу.

Они также предложили типичное соглашение, которому следуют сегодня. Если бы это произошло по их предложению, это совсем другое дело, но оно выходит за рамки этого вопроса.

Учитывая количество усилий, уже затраченных на стандартизацию таких баз данных, и их влияние на другие дисциплины, мы чувствуем, что геномное определение нитей Уотсона и Крика имеет за собой наибольшую массу. В частности, мы считаем, что однозначное использование базы данных генома Saccharomyces является наиболее полезным. В первой части нашего предложения центромера является точкой отсчета, которая делит хромосому на два плеча неравной длины. Хромосома ориентирована так, что более короткое плечо находится слева, а более длинное — справа. Кроме того, верхняя цепь имеет 5'-конец на левой (короткое плечо) теломере и 3'-конец на правой (длинное плечо) теломере. Эта нить называется нитью Ватсона. Точно так же нижняя цепь имеет 5'-конец на правой теломере и 3'-конец на левой теломере и является цепью Крика.

а потом...

Если в конечном счете невозможно различить нити Уотсона и Крика, используя биологические свойства, то мы предлагаем, чтобы Уотсон ссылался на стенд, произвольно используемый в качестве эталона в базе данных (т. е. стенд «плюс»), а цепочка Крика — на его дополнение

Но вернемся к данным секвенирования или файлам FASTQ. Когда мы выравниваем чтения, результирующий файл SAM или BAM имеет столбец, указывающий информацию о цепочке, мы обычно видим + или - цепочку.

Это предполагает, что продукт произошел либо из нити Уотсона (положительной), либо из цепи Крика (отрицательной). Например, чтение на самом деле является обратным дополнением продукта, но поскольку вы выполняете этап ПЦР во время подготовки библиотеки, этот конкретный бит информации теряется, и поэтому протоколы последующего анализа, как правило, рассматривают все локусы, с которыми выравнивается любой отдельный продукт. .

Различия между секвенированием, специфичным для нити, и секвенированием, не специфичным для нити, описаны здесь .

Нынешнее состояние этого ответа, кажется, смешивает терминологию, подходящую для целей, связанных с генами, с терминологией, подходящей для целей, связанных с хромосомами. Относительно гена используется смысл/антисмысл (или кодирование/шаблон), а относительно хромосомы используется прямое/обратное (или плюс/минус). Прямая цепь будет иметь как смысловую, так и антисмысловую последовательности. Смотрите ответ Bio_X2Y здесь для точного и краткого описания.
Мне жаль, что я пошел дальше, чем @mgkrebbs, и сказал, что и вопрос, и этот ответ - чепуха. Я не знаком с вики сообщества, но это определенно не должно быть стандартным справочником. Я написал ответ, объясняющий, почему.

И является классификацией биоинформатики +. -Эталонной последовательностью по умолчанию является , +а все гены в противоположной ориентации помечены как -.

Для линейных эйкариотических хромосом эталонная последовательность генома находится в ориентации хромосомы (на основе более раннего цитогенетического отнесения; обычно короткое плечо - 5').

Я предполагаю, что для прокариот источником репликации является начало эталонного генома ( Eisen et al, 2000 ).

Я бы заменил «классификацию биоинформатики» на «обозначение файла данных». Файлы GenBank и тому подобное удобочитаемы для человека, поэтому они не имеют ничего общего с информатикой, и я не думаю, что здесь задействована какая-либо классификация.

Отвечать

Не существует такой вещи, как положительная или отрицательная цепь для генома (референтного или иного) по той простой причине, что геномы почти всех организмов содержат гены в обеих ориентациях, и, следовательно, каждая цепь содержит гены, последовательность которых находится в смысловое и антисмысловое направление по отношению к мРНК.

Исключение составляют одноцепочечные РНК-содержащие вирусы, в которых одна цепь может действовать как мРНК. Именно здесь в основном используется номенклатура «+» и «-», чтобы различать, какая цепь используется в геноме вируса.

Ранее я обращался к этой теме в своих ответах на связанные вопросы о направлении последовательности в базах данных и рамках считывания .

Дальнейшее уточнение: где начинаются эталонные геномы и на какой цепи?

Чтобы найти ответ на этот вопрос, вам следует просмотреть документацию в базе данных для конкретного интересующего генома. Однако, насколько мне известно, в целом верно следующее. (Другие могут улучшить это.)

  1. В бактериальных и плазмидных геномах последовательность обычно начинается с (единственного) начала репликации, продолжаясь в направлении, в котором происходит репликация, написанном справа от начала. Нить, представленная в базе данных, начинается с 5'-конца слева от этого начала координат.
  2. В хорошо изученных эукариотических геномах имеется узнаваемая цитохимическая асимметрия хромосом (с точки зрения группировки гетерохроматина и, в некоторых случаях, «плеч»), и существует соглашение обозначать один конец «левым», а другой — «правым». '. В эталонных геномах последовательность начинается с традиционно рассматриваемой левой части хромосомы, представляя последовательность ДНК цепи, имеющей 5'-конец. Ниже я привожу пример того, как Genbank указывает на «обратную» направленность генов, используя термин «дополнение».
  3. В одноцепочечных РНК-вирусах, где используется номенклатура «+» и «-», последовательность имеет «+», начиная с 5'-конца.
     комплемент генов (11566..11952)
                     /locus_tag="YAL065C"
     Дополнение CDS (11566..11952)
                     /locus_tag="YAL065C"
                     /note="Yal065cp"
                     /кодон_старт=1
                     /inference="неэкспериментальные данные, без дополнительных
                     подробности записаны"
                     /product="Предполагаемый белок с неизвестной функцией; имеет
                     гомология FLO1; возможный псевдоген"
                     /protein_id="NP_009335.1"
                     /db_xref="SGD:S000001817"
                     /db_xref="GI:6319252"
                     /db_xref="GeneID:851232"
                     /translation="MNSATSETTTNTGAAETTTSTGAAETKTVVTSSISRFNHAETQT
                     ASATDVIGHSSSVVSVSETGNTKSLITSGLSTMSQQPRSTPASSIIGSSTASLEISTY
                     ВГИАНГЛТННГИСВФИСТВЛЛАИВВ"
     ген 12047..12427
                     /locus_tag="YAL064W-B"
                     /db_xref="GeneID:851233"
     КДС 12047..12427
                     /locus_tag="YAL064W-B"
                     /note="Yal064w-bp"
                     /кодон_старт=1
                     /inference="неэкспериментальные данные, без дополнительных
                     подробности записаны"
                     /product="Грибковый белок с неизвестной функцией"
                     /protein_id="NP_009336.1"
                     /db_xref="SGD:S000002141"
                     /db_xref="GI:6319253"
                     /db_xref="GeneID:851233"
                     /translation="MAGEAVSEHTPDSQEVTVTSVVCCLDSVVEIGHHVVYSVVTPLI
                     VAVLIDTMAGEAVLEHTSDSQEEIVTTVVCSVVPLVCFVVSVVCFVISVVEIGHVVY
                     СВВАПЛТВАВЕТИАЕМДСВХТ"

[Пример части файла Genbank (NC_001133), показывающий, как направленность двух генов с противоположной ориентацией указывается с помощью термина «дополнение».]

Постскриптум: Программы биоинформатики

Как указывает @WYSIWYG в своем ответе, некоторые программы биоинформатики, которые создают таблицы генов, указывают свое направление, используя «+» или «–», чтобы указать «слева направо» или «справа налево» соответственно.

Однако существует естественное направление, зависящее от направления репликации.
@JackAidley — Направление репликации? Это может относиться к бактериям, но не к эукариотам. Но, хотя это был не совсем вопрос, и постера давно нет, я добавил кое-что о том, откуда начинаются «эталонные геномы».
@WYSIWYG — я понимаю вашу точку зрения, что + и — используются в файлах данных, но вопрос автора «Является ли эталонный геном положительным?» ясно указывает, что это не то, что он имел в виду, иначе ответ будет тривиальным «+». А термины +цепь и –цепь использовались в молекулярной вирусологии до того, как было изобретено секвенирование нуклеиновых кислот, поэтому, хотя я писал программы для чтения файлов GenBank и знаком с этим обозначением, я никогда не слышал, чтобы их называли + цепью . Другой ответ также предполагает, что постер говорит о «смысловых» нитях, хотя он скорее уходит по касательной.
«... никогда не слышал, чтобы их называли + цепочкой ...» Я якобы только что видел «минус», используемый в листе данных (показан здесь на Stackexchange; я мог бы сослаться на него) Поскольку минусовая нить является шаблоном используемые в технике, банки данных относятся к минус-, а не к «кодирующей цепи»/плюс-цепи?