论文部分内容阅读
癌症驱动通路对癌症精准医疗和个性化医疗的重要性,使癌症驱动通路识别问题成为生物信息学的研究热点。由于高通量测序技术产生的组学数据具有噪声多和不完整的特点,且单一组学数据包含的信息有限。因此,通过整合多组学数据以提高数据完整性和准确性、充分利用不同组学数据的潜在信息非常重要。本文对基于多组学数据的癌症驱动通路识别问题展开研究,主要工作如下:通过整合体细胞突变、拷贝数变异和基因表达三种组学数据,提出改进的最大权重子矩阵问题模型IMWS。IMWS模型通过一条通路中基因的平均权重来调节覆盖度和互斥度,同时考虑基因之间的相关性,旨在识别具有高覆盖度和中等互斥度的单驱动通路。通过引入短染色体编码和基于贪婪策略的重组算子,提出求解IMWS模型的单亲遗传算法PA-IMWS。在真实生物数据集和模拟数据集上对算法GA、MOGA、iMCMC和PA-IMWS进行实验对比分析。实验结果表明,与其他三种算法相比,PA-IMWS算法能够识别具有高覆盖度、中等互斥度的基因集,并且在算法执行效率上具有较好的扩展性。通过整合体细胞突变、拷贝数变异和基因表达数据,提出改进的协作驱动通路问题模型ICMDP。该模型具有两个特征:(1)每个通路具有高覆盖度和中等互斥度;(2)协作驱动通路间的突变基因在癌症样本中呈现显著的共同突变,且协作驱动通路中基因具有相关性。通过引入短染色体编码和基于贪婪策略的重组算子,提出求解ICMDP模型的单亲遗传算法PA-ICMDP。在真实生物数据集上对算法CoMDP和PA-ICMDP进行实验比较。实验结果表明,PA-ICMDP算法能够识别涉及关键生物过程的多个重要协作驱动通路,比如细胞存活和蛋白质合成,该方法适用于挖掘与癌症发展相关的基因。进一步对ICMDP和PA-ICMDP进行扩展,提出EICMDP模型和PA-EICMDP算法,实验结果表明,扩展后的模型和算法能有效识别与已知通路发生协同作用的其他重要通路。综上所述,本文对癌症驱动通路识别问题进行研究,基于多组学数据,提出通路识别问题的模型和算法,这些方法可能成为检测癌症通路的有用补充工具。