论文部分内容阅读
肿瘤中含有多种从单个祖先细胞种群通过连续获取突变而形成的在基因组水平不同的细胞种群。通过自然选择,这种肿瘤内基因异质性能够使肿瘤获得适应性,从而导致治疗失败。肿瘤中含有某变异的所有的细胞的集合称为该变异的亚克隆种群(Subclonal population)。亚克隆重构(Subclonal reconstruction),即重构肿瘤中变异的亚克隆种群的进化树,能够有助于识别与癌症的发生和进展相关的重要驱动变异,进而设计更有效的治疗方案。现有基于测序数据进行亚克隆重构的算法依据变异的亚克隆种群比例推导肿瘤的进化结构。随着测序技术发展和测序成本的降低,在癌症发展的进程中,通过多种测序技术、多次测序来进行分析肿瘤成为可能,然而目前没有基于多种测序技术的多次肿瘤测序数据进行亚克隆重构的自动化方法。针对该问题,本文开展了肿瘤中最常见的体细胞拷贝数突变(Somatic copy number alternation,SCNA)的亚克隆重构相关的研究,相关的主要工作包括以下四个方面。(1)提出了一种基于贝叶斯概率模型和层次聚类的肿瘤测序数据偏差校正方法。现有基于肿瘤和其对照样本的测序短片段(Read)数量比值来分析SCNA及其亚克隆种群的方法认为,发生SCNA的区域中对齐的肿瘤和其对照样本的测序短片段具有相同的偏差特性,因此测序短片段数量比值不受偏差影响。然而,本文通过研究发现,测序短片段数量比值仍然受偏差影响且该比值与对应基因组区间的GC含量呈现对数线性关系。利用该偏差特性,本文提出一种贝叶斯偏差校正模型。该偏差校正模型使用马尔科夫链蒙塔卡洛(Markov chain monte carlo,MCMC)方法从校正后的数据的分布中选取最佳校正数据。最佳校正数据的似然设置为校正后的数据的测序短片段数量比值的对数的核密度曲线峰值之和。密度峰值的个数设置为预先设定的亚克隆种群个数和最大拷贝数的乘积。实验结果表明,与现有的Loess回归、线性回归偏差校正方法相比,该方法能够更好并且更快速地校正该类偏差。(2)分析亚克隆比例的解空间并提出一种基于均值漂移和层次聚类的变异片段聚合方法。现有的基于二代测序数据的SCNA检测工具通过比较肿瘤和其对照样本的二代测序片段数量的差异来判断对应的基因组区域是否发生变异,具有灵敏度越高受误差影响越大的性质。由于后续的亚克隆比例求解工具认为两个相邻断点之间只含有同一类型的变异,所以为了降低断点的误发现率,使用高灵敏度的变异检测工具检测变异断点。然而过多的假阳性断点使得求解亚克隆比例耗时且不准确。本文提出的片段聚合方法首先使用层次聚类对片段按照测序短片段数量比值的对数进行聚类,然后使用均值漂移对聚类后的每一类片段集合按照片段中杂合性等位基因(Allele)位点的B等位基因频率(B allele frequency,BAF)值进行分解,最后合并同类别相邻的片段。实验结果表明,本文的片段聚合方法能够有效去除假阳性断点,降低求解亚克隆种群比例的时间消耗且结果更加准确。(3)提出基于贝叶斯网络的亚克隆比例计算方法。现有的求解SCNA的亚克隆比例的方法的计算结果精度差且为了使求解过程收敛,现有方法人为地额外限制求解空间或者人为地加入额外没有科学依据的假设。为了解决以上问题,本文基于(2)中的SCNA的解空间分析和(1)中对SCNA的偏差分析,提出了一种基于贝叶斯网络的SCNA的亚克隆种群比例模型并使用MCMC方法求解亚克隆比例。在该模型内,本文根据Lander-Waterman的测序短片段覆盖度模型将SCNA片段内对齐的肿瘤测序短片段数量设置成服从泊松分布,将SCNA片段内的杂合等位基因位点对齐的肿瘤测序短片段的B等位基因(B allele)数量设置为服从二项分布,将将亚克隆种群比例的先验分布设置为服从狄利克雷过程。实验结果表明,本文提出的亚克隆比例计算方法能够更准确地求解亚克隆比例且能够求解现有方法无法求解的亚克隆个数多于3个以上的亚克隆比例。(4)提出了多阶段树学习方法和基于多阶段树学习的亚克隆重构方法。本文在现有的应用变异的亚克隆种群比例进行亚克隆重构的拓扑规则基础上提出一种称为时序拓扑规则的基于变异发生的先后顺序约束肿瘤变异的亚克隆进化结构的亚克隆重构拓扑规则。基于该规则,本文提出一种称为多阶段树学习的树结构学习方法。该树结构学习方法在对变异的亚克隆种群进化树结构进行MCMC抽样时,按照变异发生的先后顺序抽取其亚克隆所在树节点,并在抽取当前变异的亚克隆所在节点时,通过限制当前节点不抽中先发生的变异的亚克隆所在的节点的祖先节点,使抽取的树结构更符合亚克隆的进化过程。本文在多阶段树学习的基础上提出的扩展算法能够结合二代测序数据和靶向测序、单细胞测序数据来求解亚克隆进化树。本文将多阶段树学习和(1)、(2)、(3)提出的方法组成亚克隆重构流程,实验结果表明,本文提出的多阶段树学习方法能够结合多种测序技术的数据对SCNA进行更准确的亚克隆重构。