论文部分内容阅读
基因芯片等高通量检测技术对当代生物学研究产生了巨大影响。根据高通量基因表达谱数据,采用数据挖掘技术识别癌症等复杂疾病相关的差异表达基因(Differentially Expressed Genes,DEGs)与功能,对研究疾病机理、预测疾病类型有重要的意义。然而,对同一种疾病的研究,不同的实验室运用基因芯片技术得到的差异表达基因列表通常很不一致。甚至利用对一组样本的重复检测数据,选择出的差异表达基因的重复性依然很低,引起了人们对基因芯片技术可靠性的质疑。
我们首先构建了统计模型,分析可能影响差异表达基因识别的各种因素,结果发现:即使是重复检测的同一样本,在检测变异很小的情况下,选择的差异表达基因列表也很可能高度不一致。所以,从现有技术重复实验中观测到的差异表达基因列表之间的低重复性并不能够说明芯片技术检测质量很低。同时,我们通过对真实癌症表达谱数据和仿真数据的分析,发现差异表达基因在癌症中的差异表达模式具有异质性,这个因素也会影响到总体差异表达基因的重复检测。然而,从真实数据和仿真数据的小样本实验中发现差异表达基因的实际错误发现率(false discovery rate,FDR)很低,提示每个单独的小样本实验很可能识别出真实的差异表达基因,分别是总体差异表达基因的不同部分。
目前用来评价差异表达基因列表之间重复性的指标(POG)只是统计两个基因列表之间重叠基因的比例。考虑到复杂疾病中基因的表达存在广泛的相关关系,我们提出了新的指标(POGR)来评价差异表达基因的重复性。利用三对疾病数据分析的结果显示,虽然从每种疾病的两套数据中筛选出的差异表达基因间重叠的基因个数很少,但是它们之间的表达相关性很高,提示了不重叠的差异表达基因实际上在相关层面上具有很高的可重复性。从系统生物学角度观测到的高重复性明显减少了芯片实验研究的不确定性,并且可以应用到其他后基因组的高通量技术领域。
考虑到基因的表达行为不是孤立的,并且功能相关的基因(例如位于同一条代谢通路)的表达倾向于高度相关,即基因有功能模块化协同表达的倾向,我们进一步提出一种结合Gene Ontology( GO)基因功能分类知识体系选择疾病特征功能模块与特征基因,从功能模块水平研究疾病机理与分类的方法。利用GO中的生物过程(biological process)和细胞组分(cellular component)两个分类体系,选择显著聚集差异表达基因的复合功能模块;识别其中能够有效分类疾病样本的差异表达功能模块;以差异表达功能模块中的差异表达基因作为特征并分析它们与疾病的相关性。对三套癌症数据的分析结果表明,基于差异表达功能模块的差异表达基因选择的方法可以识别与疾病高度相关的功能一致的差异表达基因。迸一步的分析显示,根据差异表达功能模块和基因表达调控信息构建基因表达调控网络,可以从中挖掘关键的疾病差异表达基因,并提示对复杂疾病同时应答的多功能模块间的协同作用关系的重要线索。同时,结合基因功能分类知识的疾病差异表达基因选择方法也提供了一种高准确度的疾病分类方法,分类结果有明确的生物学意义,对复杂疾病的诊断及病理学研究有重要的意义。