Появляется ли строка «...CATCAT...» в ДНК Felis catus?

В книге Хофштадтера « Гедель, Эшер, Бах: вечная золотая коса » (GEB) появляется следующее утверждение:

... у вида Felis catus глубокое исследование показало, что действительно возможно прочитать фенотип непосредственно по генотипу. Читатель, возможно, лучше оценит этот замечательный факт после непосредственного изучения следующего типичного участка ДНК Felis catus :

... CATCATCATCATCATCATCAT... ( примечание OP: усечено , потому что вы поняли)

Это правда? Беглый поиск ДНК Felis catus дал мне эту статью Лопеса, Севарио и О'Брайена 1996 года, и данная последовательность не появляется - есть несколько случаев «CAT», но они не повторяются настолько, чтобы сделать их такими примечательными, как утверждается. в ГЭБ.

Я недостаточно знаю биологию, чтобы судить о правдивости этого утверждения. Вот некоторые моменты, которые я рассматриваю:

  • GEB полон игр слов. Однако тон этой части текста мне не кажется таковым.
  • GEB был написан/опубликован примерно в 1978 году. Статья, на которую я дал ссылку, которая, по данным Google, цитировалась примерно 236 другими, была опубликована в 1996 году, намного позже времени GEB. Если у меня сложилось впечатление, что работа Лопеса и др. значительна, потому что Felis catus секвенирован впервые, то Хофштадтер никак не мог знать об этом, когда писал GEB. С другой стороны, я недостаточно знаю биологию, чтобы в статье Лопеса и др. мог быть какой-то нюанс, который я упустил (т. е. результаты статьи могут не противоречить заявлению, сделанному в GEB).
  • В GEB есть справочные примечания и библиография, но нет ссылок, подтверждающих это утверждение. Тем не менее, GEB не пытается быть строгой академической тезисом, и ссылки требуются больше, только когда Хофштадтер цитирует другие работы напрямую, в то время как библиография представляет собой список литературы, которую читатель может захотеть проверить, относительно основного тезиса книги. .

Так являются ли рекурсии кошек без базовых случаев?

Добро пожаловать в BiologySE! Вы пришли с треском! ;)
Как правило: когда вы находите в ГЭБ удивительные научно впечатляющие постулаты, лучше удостовериться, что вы их обнаружили в одном из диалогов, а не в основном материале. Диалоговые персонажи Хофштадтера, как правило, проявляют значительную поэтическую свободу в отношении лежащей в основе науки. Я не знаю, в каком разделе вы это нашли, но утверждение о том, что фенотип можно вывести из генотипа, очень похоже на то, что у него больше иронии, чем может надеяться средний кот.
В ДНК Леди Гаги есть GAGAGA?
Хотя я не знаю геном кошки, я почти уверен, что геном собаки не содержит СОБАКУ.
Я голосую за то, чтобы закрыть этот вопрос как не по теме, потому что, хотя это может быть забавно, но связь между английским словом cat и сокращениями, используемыми для молекул, ни в коем случае нельзя рассматривать как относящуюся к биологии. Возможно, это как-то связано со статистикой или английской литературой.
Я голосую за закрытие этого вопроса, потому что это тривиально и глупо.
Я голосую за то, чтобы закрыть этот вопрос, потому что, как указывал @David в прошлом, этот вопрос тривиален и не имеет биологического значения.
@tyersome Тем не менее, за него проголосовали как минимум 92 раза и 22 раза добавили в избранное.
Я голосую за то, чтобы закрыть этот вопрос, потому что он не представляет никакого научного интереса.
Интересно. Теперь я вижу, что @tyrsome и я проголосовали за закрытие этого ранее. Почему наши голоса за закрытие были удалены?
@David Bcoz никто больше не поддержал, и ваши голоса устарели . Они стареют через 14 дней.
@ user237650 — Спасибо за информацию. Ну, по крайней мере, комментариев нет.

Ответы (4)

Геном Felis catus был опубликован, аннотирован и немного обновлен с 1996 года, включая участки так называемых межгенных областей, которые в основном представляют собой строительные леса и другие структуры, а также, возможно, некоторые неидентифицированные гены, псевдогены, регуляторные последовательности и т. д. В основном , теперь доступна почти вся последовательность ДНК, а не только последовательность генов митохондриального генома, которая была опубликована в статье 1996 года, на которую вы ссылались. Митохондрии — это электростанции клетки, но это всего лишь органелла , содержащая собственную ДНК; они отделены от хромосомДНК в ядре. Все это доступно бесплатно (если вы знаете, где искать) в Национальном центре биотехнологической информации (NCBI), входящем в состав Национальной медицинской библиотеки (NLM) при Национальном институте здравоохранения (NIH) в США. Также доступны другие сайты, такие как Ensembl , совместный проект Европейского института биоинформатики (EMBL-EBI), входящего в состав Европейской лаборатории молекулярной биологии (EMBL), и Института Сангера Wellcome Trust (WTSI). Оба института расположены в кампусе Wellcome Trust Genome в Соединенном Королевстве.

Итак, к геному. Геномные последовательности можно искать несколькими различными способами, в зависимости от того, что вы ищете, но наиболее распространенным способом является использование BLAST, основного инструмента локального выравнивания и поиска. Как следует из названия, он принимает последовательности в качестве входных данных и ищет одну по другой, выравнивая результаты как можно лучше, используя определенные алгоритмы, которые пользователь может определить и настроить. Веб-интерфейс BLAST к кошачьему геному находится здесь . Вам не нужно беспокоиться ни о каких других параметрах, кроме поля «Введите последовательность запроса». Формат FASTA просто использует однобуквенные сокращения для нуклеотидов (AGCT), все вместе.

Геном, который мы ищем, принадлежит абиссинской кошке по кличке Корица:

Корица

Корица, кошка, которая была выбрана в качестве окончательной генетической модели для всех кошек в проекте кошачьего генома. Изображение предоставлено Колледжем ветеринарной медицины Университета Миссури .

Для начала я набрал CATCATCATCATи, к своему удивлению, получил более 200 совпадений, охватывающих каждую хромосому, которая есть у кошки. Итак, я удвоил длину ввода до 8 CATс и получил тот же набор результатов. К сожалению, 12 CATс было слишком много (и действительно, это слишком много), поэтому я работал в обратном порядке.

Окончательные результаты здесь (извините, срок действия ссылки истекает 13.10.16. Чтобы восстановить, перейдите по ссылке BLAST выше и введите CATCATCATCATCATCATCATCATCATCAT). Видимо, народная мудрость неверна, и хромосомы Felis catus действительно содержат по 10 CATс, на одну больше, чем нужно для их 9 жизней. Пока нет слов о том, почему это может быть, но ученые, по-видимому, работают над этим.

Иронию можно воспринимать всерьез, я не думаю, что это хорошее место для шуток.
@har-wradim, в чем здесь ирония? Последнее предложение? Ничего страшного, поскольку меня не интересуют глубокие исследования кошек как таковые. Я нахожу ответ очень подробным, и, несмотря на ограниченность моих познаний в биологии, объяснение Мэтта складывается, воспроизводимо и поддается проверке. Что ж, пользовательский интерфейс NCBI Blast не соответствует качеству Apple, но он держится, насколько я могу его интерпретировать.
Мой вопрос: является ли felis catus единственным видом, для которого это верно? Я бы предположил иначе.
@Jan: я бы сказал, что это маловероятно. Это просто сопоставление с астрономическим набором входных данных.
@JanDvorak, можешь ли ты придумать животное, которое пишется буквами A, T, C и G?
THE MOAR, КОТОРЫЙ ВЫ ЗНАЕТЕ: Ходят слухи, что у одной известной поп-певицы в ДНК много "GAGA". В других новостях: любая другая форма жизни на основе углерода тоже.
Я слышал, что у всего актерского состава Gattaca в ДНК были последовательности GATTACA. Большая часть экипажа сделала это. Чую заговор. Я думаю, они даже приняли закон о больших числах, чтобы скрыть это.
Мое образование связано с математикой; Я присоединился к Biology StackExchange, чтобы оставить этот комментарий. Геном кошки, как и наш, имеет длину около 3 миллиардов пар оснований. Вероятность совпадения последовательности из n пар оснований, начинающихся в любой заданной позиции, составляет 1 из 4 ^ n (поскольку существует 4 возможных пары оснований), что для n = 12 составляет около 1 из 16 миллионов. Это означает, что вы ожидали бы найти около 200 совпадений для CATCATCATCAT, если бы все короткие последовательности были равновероятными. Это не совсем так, но, как указывает Марч, широкое распространение тандемных повторов делает подобные совпадения еще более вероятными.
Читая многие комментарии на этой странице, у меня возникает ощущение, что пока одни из нас здесь развлекаются, другие, менее информированные, в полном замешательстве. Мой голос принадлежит @March Ho.
@har-wradim, что именно это значит?
@har-wradim, неважно, понятно. Некоторые люди полностью пропустили шутку и относятся к ней слишком серьезно.
@skytreader «Пользовательский интерфейс NCBI Blast не соответствует качеству Apple, но ...» означает, что он не может искать геномы яблок? или же.. ?
@DaniloRamirez Apple, откуда взялись Macbook. Многие научные инструменты, черт возьми, даже промышленные продукты, имеют пользовательский интерфейс, который не соответствует качеству Apple, но, тем не менее, является полезным и мощным.
Я очень ценю юмор в конце :)
@skytreader О, это Apple .... пожалуйста, не надо ... :) каламбур был задуман из первоначального комментария, но спасибо, что сохранили его очень пояснительным.
@MattDMo Правильно ли я понимаю, может ли быть какая-то другая кошка, отличная от Корицы, у которой может быть больше CATCATCAT ... чем у нее? Потому что мы проанализировали только один генотип, а генотипы других организмов того же вида могут отличаться, верно?
@nuoritoveri Да, это возможно.
Я думаю, что это самый длинный ncbi.nlm.nih.gov/nuccore/… ( С А Т ) 41 (обратное дополнение) возможно, вы забыли снять флажок «маскировать области низкой сложности»?

Хотя ответ Мэтта совершенно правильный, важно отметить, что последовательность ( С А Т ) н в ДНК не ограничивается кошками, и вы ожидаете найти его где угодно.

Например, поиск в геноме человека одной и той же последовательности из 3 тандемных повторов CATтакже приводит к множеству совпадений.

Это потому, что вы, по сути, ищете короткие тандемные повторы в цепи ДНК. Эти повторы могут встречаться в любом организме, и поэтому, хотя поиск CATподстрок в ДНК кошки может быть забавным, они не являются чем-то особенным для кошек (или любых других животных) и являются лишь результатом артефакта случайного именования оснований. соответствует названию животного.

Основания не просто «названы», они представляют собой четыре азотистых основания: аденин, цитозин, гуанин и тимин.
@SummerEla Хотя вы правы, я не понимаю, почему неправильно называть это «именованием».
Что ж, это больше похоже на аббревиатуру, чем на систему наименований: эти три нуклеотида вместе (называемые кодоном) в конечном итоге работают вместе в цепочках кодонов для кодирования определенного белка.
@SummerEla Если бы основания назывались аденином, байтозином, куанином и димином, то у вас был бы BADBADBAD. Если бы их называли курин, квадриум, квитерий и хинтерон, то у вас было бы QQQQQQQQQ. И так далее. Переименовав их, вы можете составить любое короткое слово, содержащее всего четыре разные буквы, и найти его в любой хромосоме любого животного, которое вы хотите - например, вы можете сделать так, чтобы Y-хромосома человека содержала «МУЖСКИЕ».
@иммибис что? Моя точка зрения заключалась в том, что основания названы не произвольно, они на самом деле обозначают нуклеотиды, которые состоят из аминокислот, которые в сочетании составляют белки.
Но названия самих нуклеотидов в конечном счете произвольны. Согласно etymonline.com , аденин «так называется, потому что он был получен из поджелудочной железы быка», в то время как гуанин назван «из гуано, из которого химическое вещество было впервые выделено», а тимин — из тимоновой кислоты, из которой он был получен. изолированный» (цитозин происходит от цито-, что означает «клетка»). Если бы открытия происходили по-другому, эти химические вещества имели бы совсем другие названия.
ХА-ХА-ХА (нет, не переназначенная/переименованная последовательность нуклеотидов — смеется). По какой-то причине это делает заявление GEB более забавным. Благодарю за разъяснение!
@SummerEla Ну да, когда последовательность «цитозин, аденин, тимин» кодирует конкретную вещь. Так же как и последовательность «квадриум, курин, хинтерон», потому что на самом деле это одна и та же последовательность, я просто использую разные названия для обозначения одних и тех же оснований.
@SummerEla Так же, как и «тимин, аденин, цитозин» в альтернативной временной шкале, где слово «тимин» относится к основанию с одним кольцом и подгруппой NH2, а «цитозин» относится к основанию с одним кольцом и без подгруппы NH2.
@SummerEla Кроме того, я почти уверен, что нуклеотиды не содержат аминокислоты, а только кодируют их.
@RobinSaunders Гуано? Ты имеешь в виду, что четверть нашей ДНК названа в честь дерьма летучей мыши? Я чувствую, что это должно удивить меня больше.
Итак, согласно ответу Мэтта (о том, что существует 10-кратная последовательность), можно ли найти эту 10-кратную последовательность в каких-либо других организмах?

Чтобы дополнить другие ответы, давайте вычислим вероятность того, что CATCATCATCAT встречается в случайной последовательности ДНК.

Длина ДНК кошки составляет 2,7 гигабазы ​​( источник ), а возможных оснований может быть 4. Для 1 CAT имеется 3 базы, что дает ожидаемое количество вхождений в 2,7 Гб как 2,7 10 9 4 3 42 188 000

Повторение расчета для более длинных последовательностей дает:

  • 1 CAT: 42 188 000 случаев
  • 2 CAT: 659 180 случаев
  • 3 CAT: 10 300 случаев
  • 4 КПП: 160 случаев
  • 5 КПП: 2 случая
  • 6 КПП: 0 случаев

Так что, действительно, у кошек гораздо больше CAT, чем можно было бы ожидать по чистой случайности.

Было бы не слишком удивительно, если бы повторяющиеся последовательности встречались с большей вероятностью, чем большинство последовательностей.
ДНК не является такой простой случайной последовательностью, и, в частности, повторы происходят сверх вероятности. Поэтому это не очень хороший подход.
@JackAidley На мой взгляд, это хороший подход, чтобы точно продемонстрировать, что повторы происходят чаще, чем в случайной последовательности.
@jba: Это так. Но в последовательности «CAT» в геноме кошки нет ничего особенного. Это общее свойство повторов. Возможно, вы могли бы отредактировать свой ответ, чтобы было понятно, о чем вы говорите, и почему?
Интерпретируя ожидаемое количество вхождений как параметр Пуассона, вы можете интерпретировать вхождения 6 CAT как вероятность (через преобразование λ 1 опыт ( λ ) ) примерно на 4%, что у вас было бы столько в случайной последовательности. Как отмечает jpa, это хороший аргумент в пользу того, что STR, такие как CATCAT... более вероятны, чем можно было бы предположить по чистой случайности.
Скорее, это аргумент в пользу того, что последовательности ДНК не случайны, как предполагает этот расчет.
@reinierpost это случайно с точки зрения CAT. Значение, которое мы приписываем CAT, произвольно для ДНК. Это так же случайно, как индекс числа Пи, с которого вы должны начать, чтобы найти видео с котом.
@CandiedOrange: это не то, что этот ответ означает «случайный». Он предполагает, что элементы C, A, T и G полностью случайны в том смысле, что вероятность того, что один из них появится в определенном месте последовательности, полностью не зависит от того, что собой представляют окружающие элементы в последовательности, а это не так. дело.
@reinierpost эти две идеи случайности - это одна и та же идея случайности, вот моя точка зрения.

Итак, здесь уже есть несколько отличных ответов, но, похоже, никто не ответил на интересную часть вашего вопроса: GEB был опубликован в 1978 году, а геном Felis catus был секвенирован лишь много лет спустя... так откуда он узнал?

Ответ jpa показывает, что вы ожидаете получить только около пяти CAT, а не десять, и шанс получить десять астрономически низок. Я расширил его таблицу, чтобы показать удручающе малую вероятность получения десяти в результате идеальной случайности:

5 CAT: 2.5 expected per Felis catus genome
6 CAT: 0.04 expected
7 CAT: 0.00061
8 CAT: 9.54 e-6
9 CAT: 1.49 e-7
10 CAT: 2.32 e-9

Это означает, что вы ожидаете найти 10 CAT примерно 0,00000000232 раза на случайный геном. Так как же в геноме Felis catus оказалось десять CAT? И откуда Хофштадтер знал, что будет так много CAT?

Как оказалось, эта повторяющаяся последовательность из нескольких пар оснований называется «короткий тандемный повтор» или «микросателлит». Это когда последовательность из 2-5 пар оснований повторяется несколько раз, обычно от 5 до 50 раз.

Итак, на данный момент, резюмируя: мы знаем, что шанс получить эту последовательность 10 CAT немного более вероятен, но, поскольку мы ограничены только геномом Felix catus, нам определенно не гарантируется последовательность 10xCAT. Так как же Хофштадтер заявил об этом, как если бы это был факт?

Как оказалось, одним из важнейших свойств STR, или коротких тандемных повторов, является то, что мутации в этих областях гораздо более распространены, и они представляют собой большое количество генетических вариаций между отдельными представителями вида. Это открытие было сделано с появлением секвенирования ДНК, которое началось всего за несколько лет до публикации книги. Поэтому, учитывая большую популяцию неидентичных кошек (которая у нас есть), мы можем с уверенностью сказать, что существует чрезвычайно высокая вероятность последовательности 10xCAT.

Гениальность Хофштадтера прекрасно сочетала математику (всего 2,32е-9 ожидаемых последовательностей на геном) с биологией (микросателлиты увеличивают вероятность обнаружения этой последовательности) с судебно-медицинской генетикой (в популяции одного и того же вида у особей, вероятно, будет много различий, связанных с STR). .) Все это вместе дало Хофштадтеру то, что ему было нужно, чтобы уверенно сказать: да, CATCATCATCATCATCATCATCATCATCAT почти наверняка существует в ДНК Felis catus. Вот почему «Гедель, Эшер, Бах» — моя любимая книга всех времен.