基于机器学习的结直肠息肉风险预测

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:huei59
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结直肠癌是一种常见癌症。由于较高的发病率和死亡率,结直肠癌的预防受到了越来越多的关注。结直肠息肉是结直肠癌的初始形成和演变阶段。检测并切除结直肠息肉能够有效降低结直肠癌的发病率。在临床实践中,结直肠镜检是检测个体是否患有息肉的主要手段。该项检查价格昂贵、过程痛苦、依从率低。考虑到我国医疗预防资源的有限性和庞大的人口基数,不能像其他发达国家一样对全部适龄人群开展镜检筛查。因此,我国更需要研究清楚结直肠息肉与各种潜在决定因素之间的关系。基于这些因素构建风险预测模型,随后能够准确地预测个体息肉发病概率。然后为风险较高的人群提供针对性的筛查和治疗方案。本研究依托于国家自然科学基金委重点项目《医疗与健康的数据分析与决策》。通过分析北京市某医院体检中心的数据,确认结直肠息肉的风险因素,构建结直肠息肉风险预测模型。从而为结直肠息肉的风险筛查提供决策指导,提高我国医疗资源的利用率,同时降低我国结直肠癌的发病率。结直肠息肉风险预测研究对于降低我国结直肠癌的发病率能够起到重要作用。通过文献综述发现,在疾病风险预测领域中该项研究是一项空白。在模型构建的过程中,本研究首先对原始体检数据进行数据探索,提高了数据质量并挖掘数据中的潜在规律。数据探索的过程包括:缺失值处理、异常值处理、单变量分析和双变量分析。在以往疾病风险预测研究中,多使用传统的生物统计学方法。本文还考虑了其他四种机器学习的方法:决策树、随机森林、Boosting Tree和人工神经网络。最后通过比较5种模型在测试集上的预测效果发现神经网络模型取得了最高的测试集准确率。本文还对模型中变量的相对重要性和部分依赖情况进行了可视化分析。本文通过使用机器学习的方法,构建了基于我国人群数据的结直肠息肉风险预测模型。通过使用机器学习的方法,取得了比传统的生物统计学方法更好的预测效果。同时,本文也确认了情绪倾向是一种重要的风险因素。本文的研究一方面能够指导个性化筛查项目的实施,另一方面也能为癌症初级预防提供新的洞见。
其他文献
股权激励产生于上世纪50年代的美国。2009年年底中国创业板正式开板,为许多高科技中小型企业提供了融资平台。近年来越来越多的创业板上市公司为留住优秀的技术人员而实施股
2015年3月28日,经国务院授权三部委联合发布《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》,标志着“一带一路”倡议进入规划实施阶段。“一带一路”倡议的提
学位
2013年,习近平总书记提出“一带一路”倡议,“一带一路”范围包括亚洲、非洲、大洋洲、欧洲等地共计65个国家,贸易潜力巨大。我国近年来经济增速放缓,贸易是经济增长的重要部
随着农村人口向城市转移,第二、三产业不断产生聚集效应,城市化进程随之加快。城市化水平逐渐成为衡量地区发展程度的重要的指标,引发了对于城市化内在动力的探究。而在城市
学位
随着社会分工的逐渐细化,行业内部的知识结构愈加复杂,企业各项工作对技术专家的需求也日益增加。在开放数据环境及开放式创新环境下,如何准确推荐出适合企业业务需求的专家,
学前教育在幼儿一生的学习和成长中发挥着至关重要的作用。然而,20世纪80年代起,我国大量公办、集体性幼儿园相继关、转、停,学前教育逐渐转为以市场提供为主,造成我国公办学
实践中蓬勃发展的互联网慈善在推动慈善公益事业大发展的同时,也为慈善筹款的理论研究开启了崭新的领域。和传统慈善比较,互联网慈善的典型特征是去中心化,个人而非慈善机构
医疗卫生事业与人民群众日常生活紧密相关,对于保障人类身体健康而言至关重要。随着社会的飞速发展进步,人们生活质量不断提升,对于医疗服务的需求日益增长,医院的运作水平也