В книге Хофштадтера « Гедель, Эшер, Бах: вечная золотая коса » (GEB) появляется следующее утверждение:
... у вида Felis catus глубокое исследование показало, что действительно возможно прочитать фенотип непосредственно по генотипу. Читатель, возможно, лучше оценит этот замечательный факт после непосредственного изучения следующего типичного участка ДНК Felis catus :
... CATCATCATCATCATCATCAT... ( примечание OP: усечено , потому что вы поняли)
Это правда? Беглый поиск ДНК Felis catus дал мне эту статью Лопеса, Севарио и О'Брайена 1996 года, и данная последовательность не появляется - есть несколько случаев «CAT», но они не повторяются настолько, чтобы сделать их такими примечательными, как утверждается. в ГЭБ.
Я недостаточно знаю биологию, чтобы судить о правдивости этого утверждения. Вот некоторые моменты, которые я рассматриваю:
Так являются ли рекурсии кошек без базовых случаев?
Геном Felis catus был опубликован, аннотирован и немного обновлен с 1996 года, включая участки так называемых межгенных областей, которые в основном представляют собой строительные леса и другие структуры, а также, возможно, некоторые неидентифицированные гены, псевдогены, регуляторные последовательности и т. д. В основном , теперь доступна почти вся последовательность ДНК, а не только последовательность генов митохондриального генома, которая была опубликована в статье 1996 года, на которую вы ссылались. Митохондрии — это электростанции клетки, но это всего лишь органелла , содержащая собственную ДНК; они отделены от хромосомДНК в ядре. Все это доступно бесплатно (если вы знаете, где искать) в Национальном центре биотехнологической информации (NCBI), входящем в состав Национальной медицинской библиотеки (NLM) при Национальном институте здравоохранения (NIH) в США. Также доступны другие сайты, такие как Ensembl , совместный проект Европейского института биоинформатики (EMBL-EBI), входящего в состав Европейской лаборатории молекулярной биологии (EMBL), и Института Сангера Wellcome Trust (WTSI). Оба института расположены в кампусе Wellcome Trust Genome в Соединенном Королевстве.
Итак, к геному. Геномные последовательности можно искать несколькими различными способами, в зависимости от того, что вы ищете, но наиболее распространенным способом является использование BLAST, основного инструмента локального выравнивания и поиска. Как следует из названия, он принимает последовательности в качестве входных данных и ищет одну по другой, выравнивая результаты как можно лучше, используя определенные алгоритмы, которые пользователь может определить и настроить. Веб-интерфейс BLAST к кошачьему геному находится здесь . Вам не нужно беспокоиться ни о каких других параметрах, кроме поля «Введите последовательность запроса». Формат FASTA просто использует однобуквенные сокращения для нуклеотидов (AGCT), все вместе.
Геном, который мы ищем, принадлежит абиссинской кошке по кличке Корица:
Корица, кошка, которая была выбрана в качестве окончательной генетической модели для всех кошек в проекте кошачьего генома. Изображение предоставлено Колледжем ветеринарной медицины Университета Миссури .
Для начала я набрал CATCATCATCAT
и, к своему удивлению, получил более 200 совпадений, охватывающих каждую хромосому, которая есть у кошки. Итак, я удвоил длину ввода до 8 CAT
с и получил тот же набор результатов. К сожалению, 12 CAT
с было слишком много (и действительно, это слишком много), поэтому я работал в обратном порядке.
Окончательные результаты здесь (извините, срок действия ссылки истекает 13.10.16. Чтобы восстановить, перейдите по ссылке BLAST выше и введите CATCATCATCATCATCATCATCATCATCAT
). Видимо, народная мудрость неверна, и хромосомы Felis catus действительно содержат по 10 CAT
с, на одну больше, чем нужно для их 9 жизней. Пока нет слов о том, почему это может быть, но ученые, по-видимому, работают над этим.
Хотя ответ Мэтта совершенно правильный, важно отметить, что последовательность в ДНК не ограничивается кошками, и вы ожидаете найти его где угодно.
Например, поиск в геноме человека одной и той же последовательности из 3 тандемных повторов CAT
также приводит к множеству совпадений.
Это потому, что вы, по сути, ищете короткие тандемные повторы в цепи ДНК. Эти повторы могут встречаться в любом организме, и поэтому, хотя поиск CAT
подстрок в ДНК кошки может быть забавным, они не являются чем-то особенным для кошек (или любых других животных) и являются лишь результатом артефакта случайного именования оснований. соответствует названию животного.
Чтобы дополнить другие ответы, давайте вычислим вероятность того, что CATCATCATCAT встречается в случайной последовательности ДНК.
Длина ДНК кошки составляет 2,7 гигабазы ( источник ), а возможных оснований может быть 4. Для 1 CAT имеется 3 базы, что дает ожидаемое количество вхождений в 2,7 Гб как
Повторение расчета для более длинных последовательностей дает:
Так что, действительно, у кошек гораздо больше CAT, чем можно было бы ожидать по чистой случайности.
Итак, здесь уже есть несколько отличных ответов, но, похоже, никто не ответил на интересную часть вашего вопроса: GEB был опубликован в 1978 году, а геном Felis catus был секвенирован лишь много лет спустя... так откуда он узнал?
Ответ jpa показывает, что вы ожидаете получить только около пяти CAT, а не десять, и шанс получить десять астрономически низок. Я расширил его таблицу, чтобы показать удручающе малую вероятность получения десяти в результате идеальной случайности:
5 CAT: 2.5 expected per Felis catus genome
6 CAT: 0.04 expected
7 CAT: 0.00061
8 CAT: 9.54 e-6
9 CAT: 1.49 e-7
10 CAT: 2.32 e-9
Это означает, что вы ожидаете найти 10 CAT примерно 0,00000000232 раза на случайный геном. Так как же в геноме Felis catus оказалось десять CAT? И откуда Хофштадтер знал, что будет так много CAT?
Как оказалось, эта повторяющаяся последовательность из нескольких пар оснований называется «короткий тандемный повтор» или «микросателлит». Это когда последовательность из 2-5 пар оснований повторяется несколько раз, обычно от 5 до 50 раз.
Итак, на данный момент, резюмируя: мы знаем, что шанс получить эту последовательность 10 CAT немного более вероятен, но, поскольку мы ограничены только геномом Felix catus, нам определенно не гарантируется последовательность 10xCAT. Так как же Хофштадтер заявил об этом, как если бы это был факт?
Как оказалось, одним из важнейших свойств STR, или коротких тандемных повторов, является то, что мутации в этих областях гораздо более распространены, и они представляют собой большое количество генетических вариаций между отдельными представителями вида. Это открытие было сделано с появлением секвенирования ДНК, которое началось всего за несколько лет до публикации книги. Поэтому, учитывая большую популяцию неидентичных кошек (которая у нас есть), мы можем с уверенностью сказать, что существует чрезвычайно высокая вероятность последовательности 10xCAT.
Гениальность Хофштадтера прекрасно сочетала математику (всего 2,32е-9 ожидаемых последовательностей на геном) с биологией (микросателлиты увеличивают вероятность обнаружения этой последовательности) с судебно-медицинской генетикой (в популяции одного и того же вида у особей, вероятно, будет много различий, связанных с STR). .) Все это вместе дало Хофштадтеру то, что ему было нужно, чтобы уверенно сказать: да, CATCATCATCATCATCATCATCATCATCAT почти наверняка существует в ДНК Felis catus. Вот почему «Гедель, Эшер, Бах» — моя любимая книга всех времен.
Ученый-неудачник
пользователь 26965
Джехлин
пользователь137
Дэйвид
Дэйвид
многослойный
Родриго де Азеведо
Дэйвид
Дэйвид
пользователь 237650
Дэйвид