基于数据降维和回归分析的结直肠癌风险预测模型的研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yiluyouyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,结直肠癌(Colorectal Cancer,CRC)已经成为世界范围内最常见的恶性肿瘤之一。全世界每年约有120万新发病例,约60万人死于该疾病。在过去的几十年,我国结直肠癌发病率处于较低水平,但近年来,随着人民生活水平的提高、食物结构、生活方式的改变,人均期望寿命明显延长,我国结直肠癌的发病率率和死亡率呈逐年上升趋势。结直肠癌除了具有较高的全球发病率,亦具有较高的死亡率。事实上,早期的结直肠癌患者5年生存率可达90%以上,然而由于其起病较为隐匿,临床上超过60%的患者在就诊时已处于中晚期,诊断时已发生局部转移,结直肠癌的5年生存率降至68%,而发生远处转移的结直肠癌患者年生存率仅为11%。为了诊断和治疗结直肠癌,癌症科学家们进行了大量的研究,但是到目前为止,其病因及发病机制仍然尚未完全明了,虽然大量的流行病学研究表明结直肠癌的发生是一个复杂过程,在这个过程中,它不仅会受到环境因素、遗传因素等诸多因素的影响。然而,究竟是哪些环境因素、遗传因素对结直肠癌的发生具有一定的影响仍不明确。因此,探索结直肠癌的致癌因子以及预测结直肠癌的发病风险,对实现结直肠癌早期诊断、早期治疗具有重要意义。本文利用生物医学分类、数据降维和回归分析预测,本文构建了一个多层次结直肠癌预测模型。另外,当我们构建了多层次预测模型之后,我们创新性的提出了一种最大互相关熵的广义核递归最小二乘算法(Generalized Kernel Recursive Maximum Correntropy Algorithm,GKRMC)的非线性回归方法来提高我们对结直肠癌的预测精度和准确率。本文的具体工作包括:(1)提出了GKRMC预测回归方法。我们提出了一种非线性的回归方法GKRMC来对模型进行回归分析预测。首先介绍了相关熵的基本概念,从最大相关熵准则的理论和核递归最小二乘法(Kernel Recursive Lease Squares,KRLS)的基础上提出了GKRMC算法,使得预测模型能更好的训练含有噪声的样本,具有较强的抗噪声的能力。(2)构建了一种多层次结直肠癌预测模型。在模型构建过程中,主要通过三个模块介绍整个流程。分别是:1.生物医学分类;2.数据降维;3回归分析预测。首先在生物医学分类的分析中,深度结合了生物医学知识对实验数据进行科学的分类,把数据划分为遗传信息、人口学特征、生活方式和食物等四类,从而更接进真实的基因多态性与环境因素的区别。然后建立恰当的数据降维模型,进一步筛选出与结直肠癌有关系并著有显著性差异的特征。接着说明了回归分析预测的流程,将逻辑回归、支持向量机、KRLS和GKRMC的预测器准确率度量结果进行对比分析,来验证GKRMC算法与传统的经典回归分析预测算法的优点以及差异。(3)实验结果与分析。试验部分针对本文提出的算法进行了实现并且对重要的实验过程和数据进行了强调,同时进行了对比实验来体现GKRMC算法的优越性。首先是总结了生物医学分类结果,接着展示了数据降维后的结果,最后进行横向方法的比较,证明了GKRMC算法在预测结直肠癌准确率方面的优势。基于以上工作去探索环境因素、基因多态性与结直肠癌的风险关联。研究结果表明:(1)环境因素和遗传因素在结直肠癌的发病中都起着重要的影响;(2)利用我们筛选出来的这些生物标记作为回归模型的分类器可以准确和有效的识别每个个体的结直肠癌风险;(3)我们提出的GKRMC算法比传统的回归方法具有更好的预测能力。
其他文献
基于多图谱的标签融合技术作为一项新兴的研究方法,在模式识别和医学图像分割领域受到越来越多的关注,它利用了更多的已有专家先验知识,通过图谱图像的指导将图谱标签传播到待分
云计算是信息技术(IT)行业的一个新兴领域,由于它具有高性能、高可用性、低成本等特点。信息泄露、缺乏适当的安全控制策略和信息哨兵的弱点是这些云计算公司的主要的缺点。因此
在计算机信息通信行业迅猛发展的今天,网上信息量以带宽的指数级增长,因此网络带宽和数据通信之间的矛盾将在未来很长一段时期内作为社会发展的主要矛盾之一。同时,在其他一些特
在最近几年社会化应用和移动智能端快速普及的浪潮中,海量、实时的由亿万用户提供的社会化数据呈现出一种爆炸式的增长。数十亿用户依托各类新的社会化服务来实现网络交友、
人脸是人类一出生就具有的,可以作为人类在网络时代的信息交互的一种凭证,它具有独立性、唯一性与不被复制性,而且还具有各种立体信息,包括视觉和多维度识别信息。因此人脸识
近年来,随着P2P技术的不断发展,出现了大量基于该技术的应用系统。同时这些应用的出现也极大地促进了P2P网络的发展。文件存储作为P2P网络的一个主要应用,成为对等网络技术发
随着生活水平的提高,人们对自身的健康状况给予了越来越多的关注。但因时间地点的限制,人们无法时刻了解自己的健康状况。移动健康这个概念因此而产生,因其能够摆脱时间和地域的
在线网络是具有亚社会性质的网络,其建立在电子计算机、远程通讯技术基础上,通过信息交互系统连接不同主体,然后彼此之间信息共享、互换与交流。由于互联网具有开放性、隐蔽性等
双目立体视觉是计算机视觉中一个重要研究领域。双目立体视觉系统通过模拟人类双眼视觉过程,对摄像机拍摄的二维图像通过立体匹配获取场景的深度信息,从而进行三维重建。双目立
随着计算机技术的高速发展,图像处理技术的广泛应用,视频监控系统的应用已经渗透到各个领域。视频监控系统已经成为当今可视化领域的一个新的开发热点。许多应用领域对于视频监