Это простой вопрос, но я встречал многих людей, которые задавались этим вопросом: является ли эталонный геном положительным или отрицательным? Действительно, у меня были жаркие споры по тому же вопросу.
Так вот, чтобы положить все эти вопросы в покое.
Является ли эталонный геном положительной или отрицательной цепью? И почему так.
Прежде всего, специфичность эталонной цепи генома называется смысловой (положительная цепь) или антисмысловой (отрицательная цепь). Теперь давайте рассмотрим данные секвенирования или файлы FASTQ. Когда мы выравниваем чтения, результирующий файл SAM или BAM имеет столбец, указывающий информацию о цепочке, мы обычно видим + или - цепочку.
Для получения дополнительной информации об именах цепей вот несколько неверная заметка из вики-статьи в разделе смысл (молекулярная биология) .
Названия нитей на самом деле зависят от того, в каком направлении вы записываете последовательность, содержащую информацию о белках («смысловая» информация), а не от того, какая нить находится сверху или снизу (это произвольно). Единственная реальная биологическая информация, важная для мечения нитей, — это расположение 5'-фосфатной группы и 3'-гидроксильной группы, поскольку эти концы определяют направление транскрипции и трансляции. Последовательность 5' CGCTAT 3' эквивалентна последовательности, записанной как 3' TATCGC 5', если отмечены 5' и 3' концы. Если концы не помечены, принято считать, что последовательность записана в направлении от 5' к 3'. Цепь Уотсона относится к верхней нити от 5 'до 3' (5' → 3'), тогда как нить Крика относится к нижней нити от 5' до 3' (3' ← 5'). ).[4] Цепи Уотсона и Крика могут быть как смысловыми, так и антисмысловыми цепями в зависимости от гена, последовательности которого отображаются в базе данных последовательностей генома. Например, YEL021W, псевдоним гена URA3, используемый в базе данных NCBI, определяет, что этот ген расположен на 21-й открытой рамке считывания (ORF) от центромеры левого плеча (L) дрожжевой (Y) хромосомы номер V (E ), и что цепь, кодирующая экспрессию, представляет собой цепь Уотсона (W). YKL074C определяет 74-ю ORF слева от центромеры хромосомы XI и обозначает кодирующую нить из цепи Крика (C). Также широко используется другой сбивающий с толку термин, относящийся к цепям «Плюс» и «Минус». Независимо от того, является ли цепочка смысловой (положительной) или антисмысловой (отрицательной), последовательность запросов по умолчанию в выравнивании NCBI BLAST представляет собой цепочку «Плюс». [4] Цепи Уотсона и Крика могут быть как смысловыми, так и антисмысловыми в зависимости от гена, последовательности которого отображаются в базе данных последовательностей генома. Например, YEL021W, псевдоним гена URA3, используемый в базе данных NCBI, определяет, что этот ген расположен на 21-й открытой рамке считывания (ORF) от центромеры левого плеча (L) дрожжевой (Y) хромосомы номер V (E ), и что цепь, кодирующая экспрессию, представляет собой цепь Уотсона (W). YKL074C определяет 74-ю ORF слева от центромеры хромосомы XI и обозначает кодирующую нить из цепи Крика (C). Также широко используется другой сбивающий с толку термин, относящийся к цепям «Плюс» и «Минус». Независимо от того, является ли цепочка смысловой (положительной) или антисмысловой (отрицательной), последовательность запросов по умолчанию в выравнивании NCBI BLAST представляет собой цепочку «Плюс». [4] Цепи Уотсона и Крика могут быть как смысловыми, так и антисмысловыми в зависимости от гена, последовательности которого отображаются в базе данных последовательностей генома. Например, YEL021W, псевдоним гена URA3, используемый в базе данных NCBI, определяет, что этот ген расположен на 21-й открытой рамке считывания (ORF) от центромеры левого плеча (L) дрожжевой (Y) хромосомы номер V (E ), и что цепь, кодирующая экспрессию, представляет собой цепь Уотсона (W). YKL074C определяет 74-ю ORF слева от центромеры хромосомы XI и обозначает кодирующую нить из цепи Крика (C). Также широко используется другой сбивающий с толку термин, относящийся к цепям «Плюс» и «Минус». Независимо от того, является ли цепочка смысловой (положительной) или антисмысловой (отрицательной), последовательность запросов по умолчанию в выравнивании NCBI BLAST представляет собой цепочку «Плюс».
Хотя правильно говорят
Удовлетворительный ответ / соглашение предоставлено / предложено в этой статье PMC, посвященной терминологии нитей Уотсона и Крика.
Ниже приведены некоторые интересные выдержки из публикации:
Самое раннее упоминание, которое мы смогли найти о «цепи Уотсона» и «цепи Крика», несколько насмешливо и происходит из пары статей 1967 года Вацлава Шибальского и его коллег. Они связали две нити ДНК фага λ с синтетическим полинуклеотидом поли(IG), который имеет сродство к областям, богатым цитозином. Затем они разделили две нити по плотности, которая, как оказалось, определялась количеством связанного поли(IG). В градиенте плотности хлорида цезия нить с более связанным поли (IG) была более плотной и тяжелой, чем ее комплементарная. Поскольку «плотная» нить была богата цитозином, Шибальский и его коллеги назвали ее «цепью С». По логике вещей, комплементарная нить, богатая гуанином, должна была быть «G-цепью». Вместо этого его окрестили «прядь W».
Таким образом, авторы отмечают, что пряди начали свое терминологическое путешествие с того, что их роли поменялись местами: цепочка Крика указывала тяжелую цепочку (с IG), а цепочка Уотсона указывала более легкую.
Они также отмечают, что современная терминология модели WC непроизвольно основана на текущем соглашении о горизонтальном рисовании, когда одна прядь помещается сверху, а другая внизу.
Они также предложили типичное соглашение, которому следуют сегодня. Если бы это произошло по их предложению, это совсем другое дело, но оно выходит за рамки этого вопроса.
Учитывая количество усилий, уже затраченных на стандартизацию таких баз данных, и их влияние на другие дисциплины, мы чувствуем, что геномное определение нитей Уотсона и Крика имеет за собой наибольшую массу. В частности, мы считаем, что однозначное использование базы данных генома Saccharomyces является наиболее полезным. В первой части нашего предложения центромера является точкой отсчета, которая делит хромосому на два плеча неравной длины. Хромосома ориентирована так, что более короткое плечо находится слева, а более длинное — справа. Кроме того, верхняя цепь имеет 5'-конец на левой (короткое плечо) теломере и 3'-конец на правой (длинное плечо) теломере. Эта нить называется нитью Ватсона. Точно так же нижняя цепь имеет 5'-конец на правой теломере и 3'-конец на левой теломере и является цепью Крика.
а потом...
Если в конечном счете невозможно различить нити Уотсона и Крика, используя биологические свойства, то мы предлагаем, чтобы Уотсон ссылался на стенд, произвольно используемый в качестве эталона в базе данных (т. е. стенд «плюс»), а цепочка Крика — на его дополнение
Но вернемся к данным секвенирования или файлам FASTQ. Когда мы выравниваем чтения, результирующий файл SAM или BAM имеет столбец, указывающий информацию о цепочке, мы обычно видим + или - цепочку.
Это предполагает, что продукт произошел либо из нити Уотсона (положительной), либо из цепи Крика (отрицательной). Например, чтение на самом деле является обратным дополнением продукта, но поскольку вы выполняете этап ПЦР во время подготовки библиотеки, этот конкретный бит информации теряется, и поэтому протоколы последующего анализа, как правило, рассматривают все локусы, с которыми выравнивается любой отдельный продукт. .
Различия между секвенированием, специфичным для нити, и секвенированием, не специфичным для нити, описаны здесь .
И является классификацией биоинформатики +
. -
Эталонной последовательностью по умолчанию является , +
а все гены в противоположной ориентации помечены как -
.
Для линейных эйкариотических хромосом эталонная последовательность генома находится в ориентации хромосомы (на основе более раннего цитогенетического отнесения; обычно короткое плечо - 5').
Я предполагаю, что для прокариот источником репликации является начало эталонного генома ( Eisen et al, 2000 ).
Отвечать
Не существует такой вещи, как положительная или отрицательная цепь для генома (референтного или иного) по той простой причине, что геномы почти всех организмов содержат гены в обеих ориентациях, и, следовательно, каждая цепь содержит гены, последовательность которых находится в смысловое и антисмысловое направление по отношению к мРНК.
Исключение составляют одноцепочечные РНК-содержащие вирусы, в которых одна цепь может действовать как мРНК. Именно здесь в основном используется номенклатура «+» и «-», чтобы различать, какая цепь используется в геноме вируса.
Ранее я обращался к этой теме в своих ответах на связанные вопросы о направлении последовательности в базах данных и рамках считывания .
Дальнейшее уточнение: где начинаются эталонные геномы и на какой цепи?
Чтобы найти ответ на этот вопрос, вам следует просмотреть документацию в базе данных для конкретного интересующего генома. Однако, насколько мне известно, в целом верно следующее. (Другие могут улучшить это.)
комплемент генов (11566..11952) /locus_tag="YAL065C" Дополнение CDS (11566..11952) /locus_tag="YAL065C" /note="Yal065cp" /кодон_старт=1 /inference="неэкспериментальные данные, без дополнительных подробности записаны" /product="Предполагаемый белок с неизвестной функцией; имеет гомология FLO1; возможный псевдоген" /protein_id="NP_009335.1" /db_xref="SGD:S000001817" /db_xref="GI:6319252" /db_xref="GeneID:851232" /translation="MNSATSETTTNTGAAETTTSTGAAETKTVVTSSISRFNHAETQT ASATDVIGHSSSVVSVSETGNTKSLITSGLSTMSQQPRSTPASSIIGSSTASLEISTY ВГИАНГЛТННГИСВФИСТВЛЛАИВВ" ген 12047..12427 /locus_tag="YAL064W-B" /db_xref="GeneID:851233" КДС 12047..12427 /locus_tag="YAL064W-B" /note="Yal064w-bp" /кодон_старт=1 /inference="неэкспериментальные данные, без дополнительных подробности записаны" /product="Грибковый белок с неизвестной функцией" /protein_id="NP_009336.1" /db_xref="SGD:S000002141" /db_xref="GI:6319253" /db_xref="GeneID:851233" /translation="MAGEAVSEHTPDSQEVTVTSVVCCLDSVVEIGHHVVYSVVTPLI VAVLIDTMAGEAVLEHTSDSQEEIVTTVVCSVVPLVCFVVSVVCFVISVVEIGHVVY СВВАПЛТВАВЕТИАЕМДСВХТ"
[Пример части файла Genbank (NC_001133), показывающий, как направленность двух генов с противоположной ориентацией указывается с помощью термина «дополнение».]
Постскриптум: Программы биоинформатики
Как указывает @WYSIWYG в своем ответе, некоторые программы биоинформатики, которые создают таблицы генов, указывают свое направление, используя «+» или «–», чтобы указать «слева направо» или «справа налево» соответственно.
WYSIWYG
СложенныйХроматин
Дэйвид
WYSIWYG