论文部分内容阅读
生物网络是对复杂生物系统的一种表征方式,其中网络的节点代表生物大分子,网络的边代表分子间的相互作用或者调控关系。近年来,随着生物大数据的积累和数据科学的进步,生物网络在生命科学研究中的应用体现出越来越重要的价值:大量研究从识别差异表达基因扩展为识别差异网络模块;从鉴定致病基因扩展为鉴定致病网络模块。在过去的几十年中,大量生物信息学学者针对复杂疾病致病机理问题,从不同层面开展研究,包括分子生物标志物,网络生物标志物等,这些工作都极大地推动了复杂疾病研究的发展。然而,迄今为止对疾病患者个体构建单样本特异性网络的研究非常有限。然而,构建单个样本的网络对于在系统上阐明个体特异性疾病发生机制和理解肿瘤的异质性至关重要,因此迫切需要建立及应用模型,研究这一生物信息学的核心问题。针对目前开发的生物网络不能反映个体疾病患者的特异性致病机理和存在大量假阳性边的问题,本文从单个疾病患者的表达数据出发,构建了疾病患者的特异性网络。单样本特异性网络的核心就是量化一个样本对一组给定参考样本的统计扰动。对于任意一种疾病,都需要一组参考样本,基于偏相关系数,建立参考网络,然后向这组选定的参考样本中加入一个新样本,同样基于偏相关系数,建立扰动网络,最后将参考网络与扰动网络做差,得到差分网络。单样本特异性网络的关键就是筛选差分网络中显著差异的边,也就是筛选显著的差分偏相关系数,在本研究中,通过数学推导和统计推断,理论上证明了差分的偏相关系数近似服从正态分布,因此可以通过U检验来检验差分偏相关系数是否显著,最终得到单个样本的特异性网络。本文首先验证了单样本特异性网络的生物合理性,然后基于单样本特异性网络,本文解决的主要问题包括:第一,根据样本特异性网络之间的相似性,定义了一种新的距离——网络距离,然后基于网络距离设计一个聚类模型,通过将该聚类模型应用到癌症数据集上,验证了其在识别癌症亚型和区分不同类型癌症方面的有效性,同时将该聚类模型推广到单细胞数据集上,通过与其他单细胞聚类算法的比较,得出该聚类模型在区分不同类型细胞方面有更好的表现。第二,基于单样本特异性网络,本文提出一种新的识别癌症个体驱动基因的方法:在单样本网络上,某个基因调控的差异表达基因越多,则这个基因越有可能是这个癌症个体的驱动基因。本文用已知的癌症相关基因对预测的top10,top15,top20的癌症个体驱动基因进行富集分析,结果表明,该方法预测的驱动基因是合理的。第三,本文通过统计每个癌症患者的topl0的潜在驱动基因,得到特定类型癌症的驱动基因,通过与其他癌症驱动基因预测方法的比较,得出该识别方法在预测癌症驱动基因方面表现更优异。本文最大的创新点就是能够基于单个疾病患者的表达数据构建一个样本特异性网络,然后利用该网络解决了一系列生物问题,在理论上和应用上证明了单样本特异性网络的可靠性和可行性。