论文部分内容阅读
结直肠癌是一种常见癌症。由于较高的发病率和死亡率,结直肠癌的预防受到了越来越多的关注。结直肠息肉是结直肠癌的初始形成和演变阶段。检测并切除结直肠息肉能够有效降低结直肠癌的发病率。在临床实践中,结直肠镜检是检测个体是否患有息肉的主要手段。该项检查价格昂贵、过程痛苦、依从率低。考虑到我国医疗预防资源的有限性和庞大的人口基数,不能像其他发达国家一样对全部适龄人群开展镜检筛查。因此,我国更需要研究清楚结直肠息肉与各种潜在决定因素之间的关系。基于这些因素构建风险预测模型,随后能够准确地预测个体息肉发病概率。然后为风险较高的人群提供针对性的筛查和治疗方案。本研究依托于国家自然科学基金委重点项目《医疗与健康的数据分析与决策》。通过分析北京市某医院体检中心的数据,确认结直肠息肉的风险因素,构建结直肠息肉风险预测模型。从而为结直肠息肉的风险筛查提供决策指导,提高我国医疗资源的利用率,同时降低我国结直肠癌的发病率。结直肠息肉风险预测研究对于降低我国结直肠癌的发病率能够起到重要作用。通过文献综述发现,在疾病风险预测领域中该项研究是一项空白。在模型构建的过程中,本研究首先对原始体检数据进行数据探索,提高了数据质量并挖掘数据中的潜在规律。数据探索的过程包括:缺失值处理、异常值处理、单变量分析和双变量分析。在以往疾病风险预测研究中,多使用传统的生物统计学方法。本文还考虑了其他四种机器学习的方法:决策树、随机森林、Boosting Tree和人工神经网络。最后通过比较5种模型在测试集上的预测效果发现神经网络模型取得了最高的测试集准确率。本文还对模型中变量的相对重要性和部分依赖情况进行了可视化分析。本文通过使用机器学习的方法,构建了基于我国人群数据的结直肠息肉风险预测模型。通过使用机器学习的方法,取得了比传统的生物统计学方法更好的预测效果。同时,本文也确认了情绪倾向是一种重要的风险因素。本文的研究一方面能够指导个性化筛查项目的实施,另一方面也能为癌症初级预防提供新的洞见。