论文部分内容阅读
随着二代测序技术的快速发展,以及测序成本的不断下降,二代测序越来越多地在肿瘤研究中被使用。生物信息学借助数学、信息学和计算机科学来研究生物学问题。面对肿瘤研究中海量的二代测序数据,需要使用生物信息学对其进行分析与解读。我们利用生物信息学,分别对基因组和转录组二代测序结果进行深入分析。利用创新的生物信息学工具与分析方法,从基因组和转录组二代测序结果中解读出更深层次的信息。第一部分:肿瘤相关可变剪接在线分析工具的建立研究背景和目的:异常可变剪接是肿瘤发生发展的重要分子事件。虽然TCGA(The Cancer Genome Atlas)项目产出了大量的二代测序组学数据。但仍缺乏针对TCGA可变剪接开发的相关工具,使研究者能便捷地利用TCGA测序数据和临床信息来研究肿瘤可变剪接。本部分研究通过开发相关工具使TCGA中的肿瘤相关可变剪接信息能够更加充分地被利用,并且使可变剪接与临床变量的关系更直观地被解读。结果:基于云计算平台和网页数据可视化技术,我们开发了 TSVdb(TCGA Splicing Variant database)在线分析工具,用于在线探索TCGA中33种肿瘤的基因可变剪接与患者生存预后、病理分型等30种临床变量之间的关系。TSVdb整合了TCGA中临床数据、基因表达数据、转录本表达数据和Exon/Junction表达数据。通过高度集成的图形化交互分析界面,帮助研究者快速获得肿瘤中转录本表达、可变剪接事件同各项临床变量之间的关系,并提供原始数据下载。目前TSVdb网址:http://www.tsvdb.com已经向公众开放。2018年3月至2019年3月一年间,共有2600次来自各国用户的访问。第二部分:结直肠癌肝转移驱动突变筛选分析研究背景和目的:结直肠癌的发生发展是由突变累积推动的恶性转化过程;而结直肠癌肝脏转移是最常见的远处转移方式。目前鉴定结直肠癌肝转移驱动突变仍是肿瘤学研究的重要科学问题。本研究目的为通过二代测序获取肿瘤组织中突变信息,比较结直肠癌原发-肝转移配对样本中的突变发现肝转移驱动基因。另外,肿瘤细胞成群转移是肿瘤远处转移的理论之一,但在结直肠癌肝转移过程没有来自临床肿瘤样本的直接证据支持成群转移;因此,我们尝试利用原发-转移配对样本的二代测序数据,估计参与结直肠癌肝转移过程的细胞数,从而为肿瘤成群转移理论提供依据。材料和方法:本研究对18例结直肠癌原发-肝转移配对样本进行了全外显子测序,并对KRAS突变位点进行一代测序验证。同时,本研究收集了公共数据库中20例原发-肝转移配对样本的全外显子测序原始数据和79例肿瘤相关基因靶向捕获测序结果。通过整合上述数据,我们对原发-转移样本的突变频率、突变VAF(variant allele frequency)进行 了比较。然后再使用 VAP(Variant assurance pipeline)工具对原发-转移突变VAF分布特征进行了描述。利用计算机模型,模拟由不同数目细胞参与的转移过程,最后对临床样本中参与转移的细胞数进行计算。结果:整合数据分析结果显示二代测序中高频突变如APC、TP53、KRAS、BRAF、PIK3CA等基因在原发-转移中突变频率一致,但是TP53突变VAF在转移灶中相对原发灶升高。分析化疗后的转移灶突变谱和未受化疗的配对原发灶突变谱,两者没有差异。在原发-转移同时切除的患者中,和原发-转移没有经过化疗或都经过化疗的患者中几乎没有观察到CTNNB1突变;而在原发灶与转移灶非同时切除的患者,和原发灶切除时没经过化疗,转移灶接收化疗后再手术切除的患者中,大约有两成的患者带有CTNNB1突变。此外我们还通过计算机模型观察到少量细胞转移导致转移灶Private突变的VAF升高,我们用此来对临床样本中参与转移的细胞数进行估计。结果发现临床样本原发-转移突变VAF分布特征与1个或10个细胞转移的模型模拟结果存在差异,且与100个或1000个细胞转移模拟结果重合。结论:本研究通过二代测序未发现结直肠癌肝转移有明确的转移驱动突变。KRAS、BRAF和TP53等高频突变基因在原发-转移灶中突变频率一致,且不受化疗影响。TP53突变VAF在转移灶中增加。本研究模型验证了肿瘤细胞成群转移理论,并阐明结直肠癌肝转移方式为多个肿瘤细胞参与的成群转移。