论文部分内容阅读
结构变异是指存在于基因组中的大片段的插入、缺失、倒位、易位和拷贝数目的变化,是遗传多态性与表观多样性的重要来源。检测和分析这些结构变异对于理解物种间的进化过程以及人群中复杂疾病的发生过程具有重要意义,尤其对于遗传物质发生改变的癌症而言。新一代测序技术中双末端测序方法的出现和广泛应用,使得在基因组水平检测癌症中存在的结构变异变得更加灵敏和精确。由于基因组中某些特定区域存在重复片段和实验过程中对测序数据质量产生影响,使得很多方法不能精确的检测出缺失变异。我们使用R语言开发了基于双末端测序数据中插入片段长度分布检测缺失变异的方法,该方法与目前广泛应用的其它方法相比,对同一模拟数据有更好的灵敏度和准确性。在肝癌病例的基因组测序数据中,运用此方法我们检测到60个肝癌特异的缺失变异,并且部分得到实验验证,其中有些缺失变异位于肿瘤抑制基因上,如APC, MCC等,同时也有一个缺失变异的两个断点位于基因C5orf51和CPEB4上,致使形成C5orf51-CPEB4融合基因。相对于癌症基因组而言,转录组具有时间和空间的特异性,能实时的、定量的反映某一特定生理状况的生物学特征,并可从体细胞突变、等位基因特异性表达、融合基因、基因差异表达、可变剪切和信号通路调控等方面进行分析。高通量的RNA-Sequencing技术革新了转录组的研究,它更关注于分析转录区发生的各种改变。我们运用RNA-Sequencing对九对肺癌肿瘤组织和相应的癌旁组织进行转录组测序,并进行上述几个方面的分析,找到与肺癌形成和发展相关的单核苷酸突变、差异表达基因以及功能上发生重要改变的融合基因等,如TP53, EGRF,非小细胞肺癌通路等。此外,我们还对九对肺癌样品进行聚类分析,找到一些共同的改变,如SDF4在三个样品的同一位点出现。