Что значит «записать изображение и GIF в ДНК бактерий»?

BBC News недавно опубликовала статью , в которой говорится, что:

Изображение и короткометражный фильм были закодированы в ДНК с использованием единиц наследования в качестве носителя для хранения информации ... Команда секвенировала бактериальную ДНК, чтобы получить gif и изображение, подтвердив, что микробы действительно включили данные, как предполагалось. .

Это изображение:

В новостной статье показано изображение руки (показано выше) и короткометражный фильм (здесь не показан) всадника, который был закодирован в ДНК «с помощью инструмента редактирования генома, известного как Crispr [так в оригинале]» .

У меня вопрос, что это значит? Ученые разбили изображение на 0 и 1 и (установили?) его в бактерии? Как ученый (загружает?) изображение в бактерии, а затем (повторно загружает?) изображение позже? Как ДНК хранит информацию о картинке, которую можно (скачать)?

Я просто собираюсь перенести это в биологию , я думаю, вы получите лучший ответ там. Кстати, в статье Би-би-си есть ссылка на статью в журнале Nature , в котором эта работа была опубликована. Это первое место, с которого вы должны начать пытаться читать (хотя я бы не стал вас винить, если бы вы этого не поняли).
Приятно видеть, что используется реальная часть CRISPR системы CRISPR-Cas.
«Разложили ли ученые изображение на 0 и 1?» Цифровые изображения уже состоят из 0 и 1. Не надо ничего "ломать".
Просто примечание не по теме: говоря о «короткометражном фильме о скачущей лошади», я думаю, что это, вероятно, первый фильм, снятый в истории «Скачки», который на самом деле состоял из нескольких нанизанных картинок. фильмы.stackexchange.com/a/42182/20039

Ответы (3)

Образа не было в ДНК как такового, а только как абстрактное представление, которое можно было преобразовать в образ из знания кода. Вкратце, они закодировали изображение в ДНК, используя несколько различных стратегий, в которых ДНК представляла пиксели — либо с одним основанием ДНК, представляющим пиксель, либо с триплетом, представляющим пиксель. Зная код, который они использовали, они могли затем извлечь информацию и преобразовать ее обратно в изображение.

Цитата из оригинальной статьи, кодирование CRISPR-Cas цифрового фильма в геномы популяции живых бактерий :

Мы начали с изображения и сохранили значения пикселей в нуклеотидном коде... Сначала мы закодировали изображения человеческой руки, используя две разные стратегии кодирования значений пикселей: жесткую стратегию, в которой 4 цвета пикселей задавались разными базами ; и гибкая стратегия, в которой 21 возможный цвет пикселя задавался вырожденной таблицей триплетов нуклеотидов ... Чтобы распределить информацию по нескольким протоспейсерам, мы дали каждому протоспейсеру штрих-код, который определял, какой набор пикселей (обозначенный как «пиксель») был закодирован. нуклеотидами в этом спейсере. Четыре нуклеотида определяют каждый пиксель, а пиксели данного пикселя распределяются по изображению...

Их 21-цветная стратегия показана на этом рисунке:

введите описание изображения здесь

Примечание. Статья не находится в открытом доступе. Если вам нужна версия с полным доступом, Черч часто размещает свободно доступные версии своих статей на своем веб-сайте ; эта статья, № 441 в его списке, все еще отображается там как «в печати», но периодически проверяйте ее, и, возможно, она будет доступна там.

Для пояснения: если бы у меня было квадратное изображение, скажем, 9 пикселей (3x3), я бы назначил «произвольные» основания для каждого пикселя, скажем, строка 1: [GAT], строка 2: [TAC] и строка 3: [AAA ]. И я делаю произвольное правило, утверждающее, что этот 3-строчный код оснований эквивалентен этому 9-пиксельному изображению. Затем я устанавливаю этот код, используя метод CRISPR, в бактерии и читаю его обратно. Проще говоря, это то, что сделали ученые?
Просто чтобы быть ясным для OP, это концептуально ничем не отличается от кодирования изображений в двоичном формате, за исключением того, что существует 4 возможных состояния вместо 2. Фактически каждое основание в ДНК составляет 2 бита.
@PiratePi концептуально это почти правильно. Вы описываете произвольное кодирование для полного изображения, они сделали это, используя произвольное (но последовательное) кодирование на пиксель, но это единственная разница.
Просто чтобы добавить объяснение одного момента, который может быть неясен (и может быть с пользой включен в ответ). GIF — это формат цветных изображений, который позволяет отображать до 256 красно-зелено-синих цветов (2^8). Таблица цветов определяет, какой цвет соответствует каждому из 256 числовых значений. Генетический код позволяет определить не более 64 цветов из последовательности ДНК. Эти 64 цвета по-прежнему могут быть интерпретированы программным обеспечением, которое может интерпретировать кодировку изображения GIF — тот факт, что остальные 192 возможности не используются, не имеет значения. Аналогично для 21, а не 64.
Хотя ничто не мешает им использовать «кодоны» из 4 оснований для получения 256 цветов.
@canadier Действительно; для этой цели нет ничего более особенного в использовании кодонов с тремя основаниями, чем использование 8-битных байтов.
Есть ли причина, AAGкоторая не соответствует номеру?
"Образ не был в ДНК как таковой, только как абстрактное представление, которое можно было бы преобразовать в образ из знания кода" Верно, что и означает кодирование . Изображение абсолютно точно было «в ДНК»… и последующее точное извлечение доказывает это.
@AndrewPiliser Это был бы отличный отдельный вопрос. AAG - это PAM , используемый E. coli , который необходим для получения протоспейсера или, по крайней мере, значительно увеличивает эффективность сбора.
Что такое протоспейсер?
«Четыре нуклеотида определяют каждый пиксель, и пиксели данного пикселя распределяются по изображению». Являются ли эти 4 нуклеотида 1-м основанием триплетного кодона?
Упомянутая статья не находится в свободном доступе.
@Конрад Рудольф, они сделали и то, и другое. « жесткая стратегия, в которой 4 цвета пикселя задаются разными основаниями, и гибкая стратегия, в которой 21 возможный цвет пикселя задается таблицей вырожденных триплетов нуклеотидов »
@Mockingbird Подход с четырьмя нуклеотидами был другой, более простой, но менее гибкой стратегией по сравнению с триплетной стратегией.
@iayork Спасибо за разъяснение, оказывается, я неправильно прочитал комментарий, на который [комментарий, который я критиковал], отвечал.
Я ненавижу нагромождаться здесь дополнительными комментариями, но я должен исправить свое предыдущее утверждение о том, что «ничто не мешает им использовать кодоны с 4 основаниями». Фактически, я вижу в статье, что они уже были обеспокоены стоимостью синтеза всех этих олигонуклеотидов.
@LightnessRacesinOrbit Я полагаю, что если бы изображение было закодировано в ДНК , то бактерии смогли бы построить какой-то белок, который выглядел бы как это изображение. Увы, даже отдаленно не было. Вместо этого просто ДНК использовалась в качестве носителя для хранения данных изображения , что гораздо менее интересно.

Просто чтобы добавить то, что могло отсутствовать в прекрасном ответе @iayork. Я просто хочу дать более простую картину кодирования ДНК кишечной палочки .

  • Во-первых, для жесткой стратегии, в которой 4 цвета пикселя задаются разными базами, предположим, что у нас есть последовательность:

    AACCCTGGTCAGCT

    Игнорируйте первый AAG и начните с C. Теперь каждое основание ДНК может представлять собой двузначное двоичное число, и каждое число соответствует цвету, например:

    С = 00

    Т = 01

    А = 10

    Г = 11

    С учетом этой стратегии последовательность CCCT будет давать 00000001 пиксель (или набор пикселей) и так далее по мере роста последовательности. Этот пиксет будет определять цвет четырех пикселей изображения. Таким образом, каждое основание соответствует пикселю изображения, а основание определяет цвет пикселя в 4-цветном изображении.

  • Теперь давайте перейдем к гибкой стратегии . Для начала снова посмотрите на таблицу:

    гибкая таблица стратегий

    Здесь мы используем стандартные кодоны из 3 оснований. Из предопределенного значения для каждого цвета (от 1 до 21) мы можем найти цвет, используя кодон. Например, из той же последовательности:

    AACCCTGGTCAGCT

    Снова игнорируйте AAG и начните с CCC. Из таблицы CCC кодирует значение 1. Перейти к следующему, TGG кодирует значение 16, TCA кодирует 10, а GCT кодирует 7 и так далее для более длинных последовательностей. Итак, теперь мы получаем изображение с 4 пикселями, т.е. 2 x 2, с пикселями, имеющими цветовой код 1, 16, 10, 7. Таким образом, каждый пиксель может иметь цвет из предопределенных значений. При извлечении этих данных изображение получается следующим образом (из gizmodo ):

изображение

В приведенной выше части речь шла в основном об одном изображении руки. Теперь, что касается GIF с верховой ездой, процесс почти такой же. Здесь нам нужно закодировать 5 изображений вместо одного. Ученые закодировали эти 5 изображений в 5 разных ячейках. После культивирования их в течение нескольких поколений они извлекли информацию обо всех изображениях (используя стандартные инструменты биоинформатики) и скомпилировали их, чтобы получить обратно GIF. Начальный и конечный GIF-файлы выглядят так (с wired.com ):

гифка

Что означают эти жесткие и гибкие ?

В этом методе термины « жесткий » и « гибкий » больше относятся к индивидуальному основанию, чем к кодону. В жесткой стратегии значение каждой базы фиксировано, т.е. жестко. Например, в любой последовательности C будет кодировать значение «00», какой бы ни была следующая или предыдущая база. Это означает, что и в CCCT, и в GGTC C имеет жесткое значение «00». Итак, для 4-х цветного изображения, где каждому основанию жестко соответствует цвет пикселя, мы получаем столько пикселей, сколько оснований в последовательности.

С другой стороны, в гибкой стратегии отдельные базы не имеют фиксированного значения, и общее значение пикселя определяется всеми базами, кодирующими этот пиксел. Например, TCC кодирует значение 6, а CCC кодирует 1. Значение отдельной базы является вырожденным (или гибким ), отсюда и название гибкой стратегии .

Таким образом, в двух словах, хотя жесткая стратегия более эффективна, поскольку один пиксель определяется одним основанием (тогда как в гибкой стратегии один пиксель определяется одним кодоном), гибкая стратегия лучше подходит для получения большего количества цветных изображений, поскольку вы получаете больше вариантов цвета за счет увеличения количества оснований в кодоне (тогда как вы получаете только 4 цвета в жесткой стратегии, определяемой 4 основаниями).

Почему мы игнорируем AAG?

Как указывает @canadianer в своем ответе, AAG - это PAM , то есть смежный мотив Protospacer. Согласно Википедии :

Смежный мотив протоспейсера (PAM) представляет собой последовательность ДНК из 2–6 пар оснований, непосредственно следующую за последовательностью ДНК, на которую нацелена нуклеаза Cas9 в бактериальной адаптивной иммунной системе CRISPR. PAM является компонентом вторгающегося вируса или плазмиды, но не является компонентом бактериального локуса CRISPR.

Проще говоря (избегая технических подробностей), PAM необходим для функционирования CRISPR, но не является частью самой последовательности. Как и знаки препинания, они необходимы для правильного функционирования CRISPR, но их нельзя читать для целей кодирования/декодирования. Для Cas9, обнаруженного в E. coli (и являющегося наиболее популярным), последовательность AAG служит PAM и, таким образом, не используется здесь для целей кодирования. Ученые также избегали использования AAG в своих пикселях, чтобы не было более одного сайта распознавания для интеграции (не обращайте внимания на этот пункт, если вы не знаете о работе CRISPR).

Ссылка: Шипман С., Нивала Дж., Маклис Дж. и Черч Г. (2017). Кодирование CRISPR-Cas цифрового фильма в геномы популяции живых бактерий. Природа. http://dx.doi.org/10.1038/nature23017

Просто примечание: AAGпоследовательность представляет собой PAM для определенного белка Cas. Существуют белки Cas из разных видов бактерий, и они имеют разные PAM.
Почему CAS9 не читает AAG?
Приятное дополнение, но в BL21 нет Cas9. В этой статье распознавание PAM для приобретения протоспейсера обеспечивается исключительно гетерологичным комплексом Cas1-Cas2. Внутреннего AAG избегают, поэтому для интеграции используется не более одного сайта распознавания.
Вы также можете упомянуть преимущества вырожденного кода, которые обсуждаются в статье, в особенности возможность избежать повторов и внутренних PAM.
Цифровое изображение имеет много пикселей на разных участках. Но есть ли способ найти пиксели определенного местоположения изображения по этому методу. Или ученые назначили разные бактерии для разных отделов?
@mockingbird Насколько я знаю, единственный способ — это считать. Нет, ученые закодировали одно полное изображение в одной ячейке, только разные изображения были включены в разные ячейки. Что касается вашего первого вопроса, Cas9 действительно читает AAG, но это скорее сигнал, поэтому мы не рискуем использовать его как пиксет. Смотрите первый комментарий канадца.
@Mockingbird Я думаю, что они только что полностью секвенировали весь локус CRISPR, что на самом деле не слишком интересно. На мой взгляд, самая интересная часть этого исследования — это то, как они использовали CRISPR для интеграции информации в геном.
Я не понимаю, что вы подразумеваете под «оптовым секвенированием всего локуса CRISPR». Вы имеете в виду, что весь локус CRISPR закодирован для одного изображения? Но изображение имеет много пикселей. Как они поддерживали порядок?
@Another Можете ли вы включить ссылку на статью об этом явлении, которая не защищена платным доступом?
@another'Homosapien' Да, только что закончил ;)
вы пишете - Теперь каждое основание ДНК может представлять собой двузначное двоичное число . Почему 2-значный? почему не 1 или 3 цифры?
@user1993 user1993, потому что есть только 4 базы, слишком много для 1 цифры (2) и слишком мало для 3 цифр (8)
Но что не разъяснено в ответе, так это использование слова «GIF» — действительно ли исследователи закодировали изображение в формате обмена графикой CompuServe, или «GIF» используется намеренно как неправильное название, потому что это более привычный способ говоря "анимированное изображение"?
@ oldmud0 Я тоже не буду это рассматривать. Они просто разбили GIF (т.е. группу изображений) на отдельные изображения и закодировали их. Позже они извлекли данные для отдельных изображений и объединили их, чтобы вернуть GIF. Таким образом, он не кодируется в формате GIF, и при этом GIF не является неправильным. Мне кажется вполне нормально :)
@another'Homosapien' Тогда было бы более профессионально и правильно называть анимированное изображение не GIF, а анимированным изображением, не так ли? Сам GIF не был записан в ДНК, и формат анимированного изображения не важен (« формат обмена графикой ») в эксперименте.
Честно говоря, да, так и должно быть. Но люди, не очень хорошо знакомые с компьютерами и форматами, часто не понимают термина «анимированное изображение», поскольку именно его они называют термином «GIF» (знаю, это ирония, но я видел это много раз).
@ oldmud0 Не читая статью снова, я думаю, правильным описанием было бы то, что они перекодировали GIF в свой новый код ДНК.

Поскольку несколько человек спросили, почему AAGв коде избегают триплета, я подумал, что добавлю это в дополнение к другим ответам. Интересной частью этого исследования является не обязательно кодирование изображения, а то, как они использовали систему CRISPR для интеграции кодирующей ДНК в геном. Некоторых может удивить, что изображение кодируется не одной длинной строкой, а скорее, из-за природы системы CRISPR I типа E. coli , фрагментами из 33 пар оснований, называемых протоспейсерами (из которых 27 оснований используются для кодирования). фактическое кодирование, которое дает 9 пикселей на разделитель). Таким образом, полное изображение размером 30x30 пикселей требовало стабильной интеграции 100 протоспейсеров (хотя и не обязательно в одной ячейке). Эти протоспейсеры (олигонуклеотиды) были химически синтезированы, а затем введены в клетки с помощьюэлектропорация .

Интеграция этих протоспейсеров в геномный локус CRISPR использовала сверхэкспрессию гетерологичных эндонуклеаз Cas1 и Cas2. Эти белки распознают экзогенную ДНК предпочтительно, когда она окружена мотивом, ассоциированным с протоспейсером (PAM) , который в случае рассматриваемой системы CRISPR представляет собой AAG. Комплекс распознает PAM и расщепляет экзогенную ДНК с образованием спейсера длиной 33 п.н., который встраивается в геном. Упрощенно это можно было бы изобразить примерно так:

введите описание изображения здесь

Однако рассмотрим ситуацию, когда AAG используется для кодирования пикселя:

введите описание изображения здесь

Это создает внутренний PAM, который может привести к потере информации, в зависимости от того, какой PAM распознан. На самом деле, основное преимущество вырожденного кода состоит в том, чтобы избежать определенных комбинаций триплетов, которые приводят к внутренним PAM или повторениям последовательности (которые подвержены ошибкам при репликации).


Ссылки/дополнительная литература:

Амитай Г., Сорек Р. 2016. Адаптация CRISPR-Cas: понимание механизма действия. Nat Rev Microbiol 14: 67-76.

Шипман С.Л., Нивала Дж., Маклис Дж.Д., Черч Г.М. 2017. Кодирование CRISPR-Cas цифрового фильма в геномы популяции живых бактерий. Природа.

Ван Дж., Ли Дж., Чжао Х., Шэн Г., Ван М., Инь М., Ван Ю. 2015. Структурная и механистическая основа PAM-зависимого приобретения спейсера в системах CRISPR-Cas. Сотовый 163: 840-853

PS: Для всех, кому интересно, эти изображения технически неверны, но на данный момент мне не хочется их менять. На самом деле PAM не является частью обрабатываемого спейсера.

Достаточно хорошо, +1! Тем не менее, я чувствую, что вам следует немного расширить второй абзац: P
@another'Homosapien' Я старался избегать слишком большого количества механистических подробностей, поскольку я ожидаю, что многие люди, интересующиеся этим вопросом, не очень хорошо разбираются в тонкостях CRISPR-Cas (и я тоже, если уж на то пошло). Я открыт для предложений, хотя.
Без небольшого жаргона, как кто-то должен оценивать достоверность? ;)