论文部分内容阅读
伴随计算机和互联网的广泛应用,人类产生、创造的数据量呈现出爆炸式的增长,我国已经成为全球数据总量最大,数据类型最丰富的国家之一。与此同时,人类也是数据的使用者,如何将数据进行相应的处理,使其转化成为有用的信息已经成为当前机器学习领域一项重要的研究内容,由此数据挖掘技术应运而生。医疗保险作为社保最重要的一部分,同时也是人们生活的基本保障,充分利用每天产生的海量医保数据,并对其进行数据挖掘,发现数据之间存在的联系,对提供疾病的临床支持和科学决策、改善医疗治疗效果以及辅助政策的定制和修改等都有实际意义。目前,国内外许多研究人员将数据挖掘技术应用于医保数据的研究工作中,包括医疗费用的分析、医保欺诈的识别、相关疾病的合理用药、医保系统的管理等。本文提出利用数据挖掘相关技术对不同的医保数据分别进行分析和预测两个实验,对心脑血管疾病数据进行探索分析得到心血管疾病与某些属性特征的内在关联。对糖尿病的血糖值进行预测,通过特征工程来不断更新候选的数据集,再经过训练得到学习能力较好的预测模型,通过交叉验证,以均方误差作为模型的评判标准,并得到血糖的预测值,提高预测的准确率。对数据的分析和预测是在普通计算机上搭建的Hadoop集群实现的,并使用MapReduce框架进行并行计算处理。通过数据获取、数据预处理、数据可视化分析、数据挖掘、特征工程、不断模型训练、多次交叉验证,实验结果得到了心血管疾病与某些属性内在联系,证实最终得到的糖尿病模型在预测准确率方面有了明显的提升。