BBC News недавно опубликовала статью , в которой говорится, что:
Изображение и короткометражный фильм были закодированы в ДНК с использованием единиц наследования в качестве носителя для хранения информации ... Команда секвенировала бактериальную ДНК, чтобы получить gif и изображение, подтвердив, что микробы действительно включили данные, как предполагалось. .
В новостной статье показано изображение руки (показано выше) и короткометражный фильм (здесь не показан) всадника, который был закодирован в ДНК «с помощью инструмента редактирования генома, известного как Crispr [так в оригинале]» .
У меня вопрос, что это значит? Ученые разбили изображение на 0 и 1 и (установили?) его в бактерии? Как ученый (загружает?) изображение в бактерии, а затем (повторно загружает?) изображение позже? Как ДНК хранит информацию о картинке, которую можно (скачать)?
Образа не было в ДНК как такового, а только как абстрактное представление, которое можно было преобразовать в образ из знания кода. Вкратце, они закодировали изображение в ДНК, используя несколько различных стратегий, в которых ДНК представляла пиксели — либо с одним основанием ДНК, представляющим пиксель, либо с триплетом, представляющим пиксель. Зная код, который они использовали, они могли затем извлечь информацию и преобразовать ее обратно в изображение.
Цитата из оригинальной статьи, кодирование CRISPR-Cas цифрового фильма в геномы популяции живых бактерий :
Мы начали с изображения и сохранили значения пикселей в нуклеотидном коде... Сначала мы закодировали изображения человеческой руки, используя две разные стратегии кодирования значений пикселей: жесткую стратегию, в которой 4 цвета пикселей задавались разными базами ; и гибкая стратегия, в которой 21 возможный цвет пикселя задавался вырожденной таблицей триплетов нуклеотидов ... Чтобы распределить информацию по нескольким протоспейсерам, мы дали каждому протоспейсеру штрих-код, который определял, какой набор пикселей (обозначенный как «пиксель») был закодирован. нуклеотидами в этом спейсере. Четыре нуклеотида определяют каждый пиксель, а пиксели данного пикселя распределяются по изображению...
Их 21-цветная стратегия показана на этом рисунке:
Примечание. Статья не находится в открытом доступе. Если вам нужна версия с полным доступом, Черч часто размещает свободно доступные версии своих статей на своем веб-сайте ; эта статья, № 441 в его списке, все еще отображается там как «в печати», но периодически проверяйте ее, и, возможно, она будет доступна там.
AAG
которая не соответствует номеру?Просто чтобы добавить то, что могло отсутствовать в прекрасном ответе @iayork. Я просто хочу дать более простую картину кодирования ДНК кишечной палочки .
Во-первых, для жесткой стратегии, в которой 4 цвета пикселя задаются разными базами, предположим, что у нас есть последовательность:
AACCCTGGTCAGCT
Игнорируйте первый AAG и начните с C. Теперь каждое основание ДНК может представлять собой двузначное двоичное число, и каждое число соответствует цвету, например:
С = 00
Т = 01
А = 10
Г = 11
С учетом этой стратегии последовательность CCCT будет давать 00000001 пиксель (или набор пикселей) и так далее по мере роста последовательности. Этот пиксет будет определять цвет четырех пикселей изображения. Таким образом, каждое основание соответствует пикселю изображения, а основание определяет цвет пикселя в 4-цветном изображении.
Теперь давайте перейдем к гибкой стратегии . Для начала снова посмотрите на таблицу:
Здесь мы используем стандартные кодоны из 3 оснований. Из предопределенного значения для каждого цвета (от 1 до 21) мы можем найти цвет, используя кодон. Например, из той же последовательности:
AACCCTGGTCAGCT
Снова игнорируйте AAG и начните с CCC. Из таблицы CCC кодирует значение 1. Перейти к следующему, TGG кодирует значение 16, TCA кодирует 10, а GCT кодирует 7 и так далее для более длинных последовательностей. Итак, теперь мы получаем изображение с 4 пикселями, т.е. 2 x 2, с пикселями, имеющими цветовой код 1, 16, 10, 7. Таким образом, каждый пиксель может иметь цвет из предопределенных значений. При извлечении этих данных изображение получается следующим образом (из gizmodo ):
В приведенной выше части речь шла в основном об одном изображении руки. Теперь, что касается GIF с верховой ездой, процесс почти такой же. Здесь нам нужно закодировать 5 изображений вместо одного. Ученые закодировали эти 5 изображений в 5 разных ячейках. После культивирования их в течение нескольких поколений они извлекли информацию обо всех изображениях (используя стандартные инструменты биоинформатики) и скомпилировали их, чтобы получить обратно GIF. Начальный и конечный GIF-файлы выглядят так (с wired.com ):
Что означают эти жесткие и гибкие ?
В этом методе термины « жесткий » и « гибкий » больше относятся к индивидуальному основанию, чем к кодону. В жесткой стратегии значение каждой базы фиксировано, т.е. жестко. Например, в любой последовательности C будет кодировать значение «00», какой бы ни была следующая или предыдущая база. Это означает, что и в CCCT, и в GGTC C имеет жесткое значение «00». Итак, для 4-х цветного изображения, где каждому основанию жестко соответствует цвет пикселя, мы получаем столько пикселей, сколько оснований в последовательности.
С другой стороны, в гибкой стратегии отдельные базы не имеют фиксированного значения, и общее значение пикселя определяется всеми базами, кодирующими этот пиксел. Например, TCC кодирует значение 6, а CCC кодирует 1. Значение отдельной базы является вырожденным (или гибким ), отсюда и название гибкой стратегии .
Таким образом, в двух словах, хотя жесткая стратегия более эффективна, поскольку один пиксель определяется одним основанием (тогда как в гибкой стратегии один пиксель определяется одним кодоном), гибкая стратегия лучше подходит для получения большего количества цветных изображений, поскольку вы получаете больше вариантов цвета за счет увеличения количества оснований в кодоне (тогда как вы получаете только 4 цвета в жесткой стратегии, определяемой 4 основаниями).
Почему мы игнорируем AAG?
Как указывает @canadianer в своем ответе, AAG - это PAM , то есть смежный мотив Protospacer. Согласно Википедии :
Смежный мотив протоспейсера (PAM) представляет собой последовательность ДНК из 2–6 пар оснований, непосредственно следующую за последовательностью ДНК, на которую нацелена нуклеаза Cas9 в бактериальной адаптивной иммунной системе CRISPR. PAM является компонентом вторгающегося вируса или плазмиды, но не является компонентом бактериального локуса CRISPR.
Проще говоря (избегая технических подробностей), PAM необходим для функционирования CRISPR, но не является частью самой последовательности. Как и знаки препинания, они необходимы для правильного функционирования CRISPR, но их нельзя читать для целей кодирования/декодирования. Для Cas9, обнаруженного в E. coli (и являющегося наиболее популярным), последовательность AAG служит PAM и, таким образом, не используется здесь для целей кодирования. Ученые также избегали использования AAG в своих пикселях, чтобы не было более одного сайта распознавания для интеграции (не обращайте внимания на этот пункт, если вы не знаете о работе CRISPR).
AAG
последовательность представляет собой PAM для определенного белка Cas. Существуют белки Cas из разных видов бактерий, и они имеют разные PAM.Поскольку несколько человек спросили, почему AAG
в коде избегают триплета, я подумал, что добавлю это в дополнение к другим ответам. Интересной частью этого исследования является не обязательно кодирование изображения, а то, как они использовали систему CRISPR для интеграции кодирующей ДНК в геном. Некоторых может удивить, что изображение кодируется не одной длинной строкой, а скорее, из-за природы системы CRISPR I типа E. coli , фрагментами из 33 пар оснований, называемых протоспейсерами (из которых 27 оснований используются для кодирования). фактическое кодирование, которое дает 9 пикселей на разделитель). Таким образом, полное изображение размером 30x30 пикселей требовало стабильной интеграции 100 протоспейсеров (хотя и не обязательно в одной ячейке). Эти протоспейсеры (олигонуклеотиды) были химически синтезированы, а затем введены в клетки с помощьюэлектропорация .
Интеграция этих протоспейсеров в геномный локус CRISPR использовала сверхэкспрессию гетерологичных эндонуклеаз Cas1 и Cas2. Эти белки распознают экзогенную ДНК предпочтительно, когда она окружена мотивом, ассоциированным с протоспейсером (PAM) , который в случае рассматриваемой системы CRISPR представляет собой AAG
. Комплекс распознает PAM и расщепляет экзогенную ДНК с образованием спейсера длиной 33 п.н., который встраивается в геном. Упрощенно это можно было бы изобразить примерно так:
Однако рассмотрим ситуацию, когда AAG используется для кодирования пикселя:
Это создает внутренний PAM, который может привести к потере информации, в зависимости от того, какой PAM распознан. На самом деле, основное преимущество вырожденного кода состоит в том, чтобы избежать определенных комбинаций триплетов, которые приводят к внутренним PAM или повторениям последовательности (которые подвержены ошибкам при репликации).
Ссылки/дополнительная литература:
PS: Для всех, кому интересно, эти изображения технически неверны, но на данный момент мне не хочется их менять. На самом деле PAM не является частью обрабатываемого спейсера.
ортокрезол
канадец
Гонки легкости на орбите
Заибис