基于肿瘤测序数据的亚克隆重构方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:czh1078
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤中含有多种从单个祖先细胞种群通过连续获取突变而形成的在基因组水平不同的细胞种群。通过自然选择,这种肿瘤内基因异质性能够使肿瘤获得适应性,从而导致治疗失败。肿瘤中含有某变异的所有的细胞的集合称为该变异的亚克隆种群(Subclonal population)。亚克隆重构(Subclonal reconstruction),即重构肿瘤中变异的亚克隆种群的进化树,能够有助于识别与癌症的发生和进展相关的重要驱动变异,进而设计更有效的治疗方案。现有基于测序数据进行亚克隆重构的算法依据变异的亚克隆种群比例推导肿瘤的进化结构。随着测序技术发展和测序成本的降低,在癌症发展的进程中,通过多种测序技术、多次测序来进行分析肿瘤成为可能,然而目前没有基于多种测序技术的多次肿瘤测序数据进行亚克隆重构的自动化方法。针对该问题,本文开展了肿瘤中最常见的体细胞拷贝数突变(Somatic copy number alternation,SCNA)的亚克隆重构相关的研究,相关的主要工作包括以下四个方面。(1)提出了一种基于贝叶斯概率模型和层次聚类的肿瘤测序数据偏差校正方法。现有基于肿瘤和其对照样本的测序短片段(Read)数量比值来分析SCNA及其亚克隆种群的方法认为,发生SCNA的区域中对齐的肿瘤和其对照样本的测序短片段具有相同的偏差特性,因此测序短片段数量比值不受偏差影响。然而,本文通过研究发现,测序短片段数量比值仍然受偏差影响且该比值与对应基因组区间的GC含量呈现对数线性关系。利用该偏差特性,本文提出一种贝叶斯偏差校正模型。该偏差校正模型使用马尔科夫链蒙塔卡洛(Markov chain monte carlo,MCMC)方法从校正后的数据的分布中选取最佳校正数据。最佳校正数据的似然设置为校正后的数据的测序短片段数量比值的对数的核密度曲线峰值之和。密度峰值的个数设置为预先设定的亚克隆种群个数和最大拷贝数的乘积。实验结果表明,与现有的Loess回归、线性回归偏差校正方法相比,该方法能够更好并且更快速地校正该类偏差。(2)分析亚克隆比例的解空间并提出一种基于均值漂移和层次聚类的变异片段聚合方法。现有的基于二代测序数据的SCNA检测工具通过比较肿瘤和其对照样本的二代测序片段数量的差异来判断对应的基因组区域是否发生变异,具有灵敏度越高受误差影响越大的性质。由于后续的亚克隆比例求解工具认为两个相邻断点之间只含有同一类型的变异,所以为了降低断点的误发现率,使用高灵敏度的变异检测工具检测变异断点。然而过多的假阳性断点使得求解亚克隆比例耗时且不准确。本文提出的片段聚合方法首先使用层次聚类对片段按照测序短片段数量比值的对数进行聚类,然后使用均值漂移对聚类后的每一类片段集合按照片段中杂合性等位基因(Allele)位点的B等位基因频率(B allele frequency,BAF)值进行分解,最后合并同类别相邻的片段。实验结果表明,本文的片段聚合方法能够有效去除假阳性断点,降低求解亚克隆种群比例的时间消耗且结果更加准确。(3)提出基于贝叶斯网络的亚克隆比例计算方法。现有的求解SCNA的亚克隆比例的方法的计算结果精度差且为了使求解过程收敛,现有方法人为地额外限制求解空间或者人为地加入额外没有科学依据的假设。为了解决以上问题,本文基于(2)中的SCNA的解空间分析和(1)中对SCNA的偏差分析,提出了一种基于贝叶斯网络的SCNA的亚克隆种群比例模型并使用MCMC方法求解亚克隆比例。在该模型内,本文根据Lander-Waterman的测序短片段覆盖度模型将SCNA片段内对齐的肿瘤测序短片段数量设置成服从泊松分布,将SCNA片段内的杂合等位基因位点对齐的肿瘤测序短片段的B等位基因(B allele)数量设置为服从二项分布,将将亚克隆种群比例的先验分布设置为服从狄利克雷过程。实验结果表明,本文提出的亚克隆比例计算方法能够更准确地求解亚克隆比例且能够求解现有方法无法求解的亚克隆个数多于3个以上的亚克隆比例。(4)提出了多阶段树学习方法和基于多阶段树学习的亚克隆重构方法。本文在现有的应用变异的亚克隆种群比例进行亚克隆重构的拓扑规则基础上提出一种称为时序拓扑规则的基于变异发生的先后顺序约束肿瘤变异的亚克隆进化结构的亚克隆重构拓扑规则。基于该规则,本文提出一种称为多阶段树学习的树结构学习方法。该树结构学习方法在对变异的亚克隆种群进化树结构进行MCMC抽样时,按照变异发生的先后顺序抽取其亚克隆所在树节点,并在抽取当前变异的亚克隆所在节点时,通过限制当前节点不抽中先发生的变异的亚克隆所在的节点的祖先节点,使抽取的树结构更符合亚克隆的进化过程。本文在多阶段树学习的基础上提出的扩展算法能够结合二代测序数据和靶向测序、单细胞测序数据来求解亚克隆进化树。本文将多阶段树学习和(1)、(2)、(3)提出的方法组成亚克隆重构流程,实验结果表明,本文提出的多阶段树学习方法能够结合多种测序技术的数据对SCNA进行更准确的亚克隆重构。
其他文献
在各类能量转换材料中,以稀土离子为中心的转换发光具有独特的形成机制和应用领域,引起了人们的广泛关注。稀土的发光是基于4f电子在其4f层内或与5d层之间的跃迁,其可以观测
文中提出了一种单环磁通门传感器并介绍了单环磁通门的工作原理。另外介绍了一种磁芯的等效电路模型,并以此为基础建立单磁芯磁通门传感器仿真模型,通过制作产品和仿真分析确
[目的]探讨几个多花木蓝新品系的辐射敏感性和适宜辐射剂量。[方法]以6个多花木蓝品系的干种子为材料,研究了不同辐射剂量对多花木蓝种子萌发能力的影响,寻找其适宜的辐射剂
20世纪50年代,结构主义语言学在语音研究方面已经取得了很大的成就,语言学家根据对立原则对音位及其区别特征所作的分析使人类学家深受启发,他们采用类似音位分析的方法把各
目的:探讨三维超声经阴道对子宫内膜息肉的诊断价值.方法:应用Voluson 730超声诊断仪对32例子宫内膜息肉患者进行三维超声经阴道检查,并进行三维重组.结果:三维超声经阴道诊断子
以不同长势的砧木和接穗嫁接番茄(Solanum lycopersicum)为试材,研究不同砧穗组合对嫁接番茄植株生长、叶绿素含量、光合特性以及叶片中蔗糖和淀粉含量变化和光合酶基因表达
文章对玉米锈病的病原菌类型和症状作了详细描述 ,介绍了该病在我国近年的发生危害情况 ,并提出防治对策 The article described the types and symptoms of pathogen of co
戏台题记,又叫戏台题壁、墨记,或舞台题记,即戏曲艺人在演出活动期间题写于戏台上、戏房中的文字。戏台题记是民间戏班流动演出的历史记载,它真实地记录了戏班名称、来自何方
通过2种探测方法对某铁矿采空区进行勘探,分别对探地雷达和EH4大地电磁探测的数据收集和整理,通过对后期数据统计及图像处理分析,并结合现场中的实地情况,分析得出了本矿区地
【正】 课外作业是教学过程中的一个不可缺少的环节,是课堂教育的延续。 在教育活动中,课外作业有以下几方面的积极作用:(1)课外作业能起到督促学生及时复习课堂所学内容的目