论文部分内容阅读
目前,结直肠癌(Colorectal Cancer,CRC)已经成为世界范围内最常见的恶性肿瘤之一。全世界每年约有120万新发病例,约60万人死于该疾病。在过去的几十年,我国结直肠癌发病率处于较低水平,但近年来,随着人民生活水平的提高、食物结构、生活方式的改变,人均期望寿命明显延长,我国结直肠癌的发病率率和死亡率呈逐年上升趋势。结直肠癌除了具有较高的全球发病率,亦具有较高的死亡率。事实上,早期的结直肠癌患者5年生存率可达90%以上,然而由于其起病较为隐匿,临床上超过60%的患者在就诊时已处于中晚期,诊断时已发生局部转移,结直肠癌的5年生存率降至68%,而发生远处转移的结直肠癌患者年生存率仅为11%。为了诊断和治疗结直肠癌,癌症科学家们进行了大量的研究,但是到目前为止,其病因及发病机制仍然尚未完全明了,虽然大量的流行病学研究表明结直肠癌的发生是一个复杂过程,在这个过程中,它不仅会受到环境因素、遗传因素等诸多因素的影响。然而,究竟是哪些环境因素、遗传因素对结直肠癌的发生具有一定的影响仍不明确。因此,探索结直肠癌的致癌因子以及预测结直肠癌的发病风险,对实现结直肠癌早期诊断、早期治疗具有重要意义。本文利用生物医学分类、数据降维和回归分析预测,本文构建了一个多层次结直肠癌预测模型。另外,当我们构建了多层次预测模型之后,我们创新性的提出了一种最大互相关熵的广义核递归最小二乘算法(Generalized Kernel Recursive Maximum Correntropy Algorithm,GKRMC)的非线性回归方法来提高我们对结直肠癌的预测精度和准确率。本文的具体工作包括:(1)提出了GKRMC预测回归方法。我们提出了一种非线性的回归方法GKRMC来对模型进行回归分析预测。首先介绍了相关熵的基本概念,从最大相关熵准则的理论和核递归最小二乘法(Kernel Recursive Lease Squares,KRLS)的基础上提出了GKRMC算法,使得预测模型能更好的训练含有噪声的样本,具有较强的抗噪声的能力。(2)构建了一种多层次结直肠癌预测模型。在模型构建过程中,主要通过三个模块介绍整个流程。分别是:1.生物医学分类;2.数据降维;3回归分析预测。首先在生物医学分类的分析中,深度结合了生物医学知识对实验数据进行科学的分类,把数据划分为遗传信息、人口学特征、生活方式和食物等四类,从而更接进真实的基因多态性与环境因素的区别。然后建立恰当的数据降维模型,进一步筛选出与结直肠癌有关系并著有显著性差异的特征。接着说明了回归分析预测的流程,将逻辑回归、支持向量机、KRLS和GKRMC的预测器准确率度量结果进行对比分析,来验证GKRMC算法与传统的经典回归分析预测算法的优点以及差异。(3)实验结果与分析。试验部分针对本文提出的算法进行了实现并且对重要的实验过程和数据进行了强调,同时进行了对比实验来体现GKRMC算法的优越性。首先是总结了生物医学分类结果,接着展示了数据降维后的结果,最后进行横向方法的比较,证明了GKRMC算法在预测结直肠癌准确率方面的优势。基于以上工作去探索环境因素、基因多态性与结直肠癌的风险关联。研究结果表明:(1)环境因素和遗传因素在结直肠癌的发病中都起着重要的影响;(2)利用我们筛选出来的这些生物标记作为回归模型的分类器可以准确和有效的识别每个个体的结直肠癌风险;(3)我们提出的GKRMC算法比传统的回归方法具有更好的预测能力。