Гены, которые существуют на старой платформе Affymetrix, но отсутствуют на новой

Я использую два набора данных экспрессии генов с платформы Affy U95Av2 и платформы Affy U133 Plus 2.0. Когда я сопоставляю имена зондов Affy с именами генов HUGO, в новом наборе данных Affy U133 Plus 2.0 существуют тысячи генов, которых нет в старом наборе данных Affy U95Av2, что вполне ожидаемо. Но есть также 97 генов, которые существуют в старой платформе Affy U95Av2, но не в платформе Affy U133 Plus 2.0. Я бы не ожидал этого, потому что Affy U133 Plus 2.0 — гораздо более новая платформа, и я ожидаю, что она будет содержать все гены, которые были измерены Affy U95Av2. Что это значит? Должен ли я понимать, что эти 97 измерений генов на платформе Affy U95Av2 не были надежными, и поэтому их нет в Affy U133 Plus 2.0? Вот эти 97 генов:

"ACSL4" "ACSM2A" "AP3S1" "AQP7" "ARPC3" "ATF4" "ATP5H" "BAK1" "BAK1P1" "CBX1" "CCL15" "CELP" "CFHR3" "CHEK2" "CLCNKA" "COL8A1" "CS " "CXorf40B" "CYP2D6" "DDI2" "EIF3F" "EIF3IP1" "EIF5AL1" "FCGR2A" "FCGR3A" "GBX1" "GPX1" "HAVCR1" "HBZ" "HIST1H2AH" "HIST1H2AI" "HIST1H2BC" "HIST1H2BJ" " HIST1H4I" "HOXA9" "HSPB1" "IFNA14" "IGF2" "IL9R" "ITGA1" "KAT7" "KRT33A" "KRTAP26-1" "LDHA" "MAGEA12" "MAP2K4P1""MIA" "MKRN3" "MROH7" "MSX2P1" "MT1A" "MT1B" "NDUFV2" "OPHN1" "OR7E24" "PARP4" "PCDHA12" "PCDHA13" "PCDHGA12" "PCDHGB4" "PINK1-AS" "PMS2P3" "PSMC6" "PSME2" "RAB13" "RCN1" "RNF216P1" "RNF5" "RPL10A" "RPL18" "RPL27" "RPL35" "RPL37" "RPLP1" "RPS15A" "RPS26" "RPS29" "RPS5" "RPS9 "RSC1A1" "S100A7" "SAA1" "SAA4" "SNX29" "SPRR2D" "TOMM40" "UBC" "UBE2E3" "UBE2S" "UGT2B7" "UQCRFS1" "UQCRH" "VDAC2" "VENTXP7" "VOPP1" "XCL2" "ZNF799"

Какой источник аннотаций вы используете для сопоставления идентификаторов Affymetrix с именами генов, NetAffx или ? Если файлы аннотаций получены из разных источников и/или созданы в разное время, то символы генов могли измениться между ними и, следовательно, не совпадать. Но в Вашем списке я четко вижу устоявшиеся генные символы, которые давно не менялись, так что выглядит что-то обалденное...
Я использую biomaRt (одна и та же версия ансамбля) для картирования обоих. Вот мой код:ensemble = useMart(host='dec2014.archive.ensembl.org', biomart='ENSEMBL_MART_ENSEMBL'); hsp = useDataset(mart=ensemble, dataset='hsapiens_gene_ensembl'); ids = getBM(filters='entrezgene', attributes=c('entrezgene','hgnc_symbol'), values=entrezgeneids, mart=hsp);
Ну, я не знаю, откуда биомарт, в свою очередь, берет информацию. Я бы порекомендовал вам отследить фактический источник аннотаций или идентификаторы карты через надежный источник, такой как собственные аннотации Affy. Я только что сделал быстрый запрос на NetAffx для ACSL4 (первый в вашем списке), и определенно есть зонды, нацеленные на этот ген на U133. Невозможно сказать, почему результаты отличаются, не зная точно, как были сделаны аннотации.

Ответы (2)

Я работал в Affymetrix, когда разрабатывалось большинство этих массивов. Меня не было в самой команде дизайнеров, но, может быть, я могу рассказать об этом немного подробнее.

Проекты массивов РНК были созданы для охвата всего, что могло бы быть реальным транскриптом в сочетании с коллекциями EST, кДНК, обнаружением генов in silico и различными записями в общедоступных базах данных. Было много разных людей, пытавшихся найти гены как можно быстрее, и большая часть из них, естественно, не была настоящим геном. Я уверен, что в миллионах расшифровок, которые мы взяли, также было достаточное количество загрязнений.

Команда найдет большое количество ошибок в базе данных последовательностей. Между прочим, нет никакого способа отправить это осмысленным образом в большинство баз данных биоинформатики. Просто заметка :)

Когда появлялся новый дизайн, команда проводила аудит, чтобы увидеть, не потеряла ли какая-либо стенограмма пользу от доказательств, и некоторые из этих «генов» были удалены из содержимого.

Это полезно, потому что технология гибридизации ДНК имеет очень высокую пропускную способность за доллар, но она имеет фоновый шум, и даже набор зондов без соответствия в образце РНК даст числа, отличные от нуля.

RNAseq имеет аналогичные проблемы со сборками и чувствительностью из-за пределов считывания на образце BTW. Идеального решения пока нет.

Кстати, иногда гены переименовываются. Я не вникал в ваши методы, чтобы увидеть, так ли это, но кое-что нужно иметь в виду.

Мой опыт связан с зондами Affymetrix для дрозофилы, а не для H.sapiens, и только с одной версией. Тем не менее, я опишу ситуацию, с которой столкнулся, если она имеет отношение к вашей. Извините, если это отвлекающий маневр.

Что я сделал с листом данных Affymetrix, так это использовал его для создания моей собственной реляционной базы данных SQL, содержащей идентификаторы probesetID и GeneID (а также экспериментальные данные, конечно). Затем я смог сделать несколько «служебных» запросов к базе данных и был удивлен (возможно, не должен был), обнаружив следующее:

  • Некоторые гены были подобраны более чем одним набором зондов. Нет большого беспокойства. Просто нужно было выбрать тот набор зондов, который давал самый высокий сигнал, если только он не попадал во вторую категорию.
  • Некоторые наборы зондов захватили более одного гена. Это было проблемой и означало, что я должен был классифицировать наборы зондов как неоднозначные или недвусмысленные. Но еще большей проблемой было то, что для некоторых генов не существовало однозначных наборов зондов.

Очевидно, при разработке наборов зондов Affymetrix думала, что они производят однозначно специфичные для гена. Когда они обновили наборы зондов, включив в них новые или исправленные обозначения генов, можно было предположить, что они попытаются решить эту проблему (при условии, что она также существовала в наборах генов человека). Трудно поверить, но могут ли упомянутые вами гены быть невосприимчивыми к приготовлению однозначных наборов зондов?

Спасибо за ответ. Я думаю, что то, что вы объяснили, вполне возможно, и я думаю, что есть также две причины: 1) (Спасибо mastal11 на Biostars) Есть много наборов зондов Affy, которые не так уж надежны, потому что они основаны на EST. Кроме того, более старые массивы должны были быть основаны на более старых версиях последовательности генома человека, и, возможно, некоторые наборы зондов на старых массивах не сопоставляются или не сопоставляются уникальным образом с более новыми версиями последовательности генома человека. Иногда также наборы зондов основывались на последовательностях GenBank, которые позже были изъяты из GenBank. (продолжение в следующем комментарии)
2) Некоторые из этих 97 генов на самом деле имеют картирующие зонды в более новой платформе Affy, но источник аннотаций, который я использую для сопоставления наборов зондов Affy с символами генов HUGO, biomaRt, не имеет идентификаторов этих зондов в своей базе данных, поэтому не может сопоставить их с символами генов. Существуют различные источники аннотаций, и в зависимости от того, какой из них вы используете, вы можете получить немного другое сопоставление.