Я использую два набора данных экспрессии генов с платформы Affy U95Av2 и платформы Affy U133 Plus 2.0. Когда я сопоставляю имена зондов Affy с именами генов HUGO, в новом наборе данных Affy U133 Plus 2.0 существуют тысячи генов, которых нет в старом наборе данных Affy U95Av2, что вполне ожидаемо. Но есть также 97 генов, которые существуют в старой платформе Affy U95Av2, но не в платформе Affy U133 Plus 2.0. Я бы не ожидал этого, потому что Affy U133 Plus 2.0 — гораздо более новая платформа, и я ожидаю, что она будет содержать все гены, которые были измерены Affy U95Av2. Что это значит? Должен ли я понимать, что эти 97 измерений генов на платформе Affy U95Av2 не были надежными, и поэтому их нет в Affy U133 Plus 2.0? Вот эти 97 генов:
"ACSL4" "ACSM2A" "AP3S1" "AQP7" "ARPC3" "ATF4" "ATP5H" "BAK1" "BAK1P1" "CBX1" "CCL15" "CELP" "CFHR3" "CHEK2" "CLCNKA" "COL8A1" "CS " "CXorf40B" "CYP2D6" "DDI2" "EIF3F" "EIF3IP1" "EIF5AL1" "FCGR2A" "FCGR3A" "GBX1" "GPX1" "HAVCR1" "HBZ" "HIST1H2AH" "HIST1H2AI" "HIST1H2BC" "HIST1H2BJ" " HIST1H4I" "HOXA9" "HSPB1" "IFNA14" "IGF2" "IL9R" "ITGA1" "KAT7" "KRT33A" "KRTAP26-1" "LDHA" "MAGEA12" "MAP2K4P1""MIA" "MKRN3" "MROH7" "MSX2P1" "MT1A" "MT1B" "NDUFV2" "OPHN1" "OR7E24" "PARP4" "PCDHA12" "PCDHA13" "PCDHGA12" "PCDHGB4" "PINK1-AS" "PMS2P3" "PSMC6" "PSME2" "RAB13" "RCN1" "RNF216P1" "RNF5" "RPL10A" "RPL18" "RPL27" "RPL35" "RPL37" "RPLP1" "RPS15A" "RPS26" "RPS29" "RPS5" "RPS9 "RSC1A1" "S100A7" "SAA1" "SAA4" "SNX29" "SPRR2D" "TOMM40" "UBC" "UBE2E3" "UBE2S" "UGT2B7" "UQCRFS1" "UQCRH" "VDAC2" "VENTXP7" "VOPP1" "XCL2" "ZNF799"
Я работал в Affymetrix, когда разрабатывалось большинство этих массивов. Меня не было в самой команде дизайнеров, но, может быть, я могу рассказать об этом немного подробнее.
Проекты массивов РНК были созданы для охвата всего, что могло бы быть реальным транскриптом в сочетании с коллекциями EST, кДНК, обнаружением генов in silico и различными записями в общедоступных базах данных. Было много разных людей, пытавшихся найти гены как можно быстрее, и большая часть из них, естественно, не была настоящим геном. Я уверен, что в миллионах расшифровок, которые мы взяли, также было достаточное количество загрязнений.
Команда найдет большое количество ошибок в базе данных последовательностей. Между прочим, нет никакого способа отправить это осмысленным образом в большинство баз данных биоинформатики. Просто заметка :)
Когда появлялся новый дизайн, команда проводила аудит, чтобы увидеть, не потеряла ли какая-либо стенограмма пользу от доказательств, и некоторые из этих «генов» были удалены из содержимого.
Это полезно, потому что технология гибридизации ДНК имеет очень высокую пропускную способность за доллар, но она имеет фоновый шум, и даже набор зондов без соответствия в образце РНК даст числа, отличные от нуля.
RNAseq имеет аналогичные проблемы со сборками и чувствительностью из-за пределов считывания на образце BTW. Идеального решения пока нет.
Кстати, иногда гены переименовываются. Я не вникал в ваши методы, чтобы увидеть, так ли это, но кое-что нужно иметь в виду.
Мой опыт связан с зондами Affymetrix для дрозофилы, а не для H.sapiens, и только с одной версией. Тем не менее, я опишу ситуацию, с которой столкнулся, если она имеет отношение к вашей. Извините, если это отвлекающий маневр.
Что я сделал с листом данных Affymetrix, так это использовал его для создания моей собственной реляционной базы данных SQL, содержащей идентификаторы probesetID и GeneID (а также экспериментальные данные, конечно). Затем я смог сделать несколько «служебных» запросов к базе данных и был удивлен (возможно, не должен был), обнаружив следующее:
Очевидно, при разработке наборов зондов Affymetrix думала, что они производят однозначно специфичные для гена. Когда они обновили наборы зондов, включив в них новые или исправленные обозначения генов, можно было предположить, что они попытаются решить эту проблему (при условии, что она также существовала в наборах генов человека). Трудно поверить, но могут ли упомянутые вами гены быть невосприимчивыми к приготовлению однозначных наборов зондов?
Роланд
пользователь5054
ensemble = useMart(host='dec2014.archive.ensembl.org', biomart='ENSEMBL_MART_ENSEMBL'); hsp = useDataset(mart=ensemble, dataset='hsapiens_gene_ensembl'); ids = getBM(filters='entrezgene', attributes=c('entrezgene','hgnc_symbol'), values=entrezgeneids, mart=hsp);
Роланд