基于Hadoop的医保数据挖掘研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户：fellting

【摘要】

：

伴随计算机和互联网的广泛应用,人类产生、创造的数据量呈现出爆炸式的增长,我国已经成为全球数据总量最大,数据类型最丰富的国家之一。与此同时,人类也是数据的使用者,如何

【作者】

：

陈阳

【出处】

：

沈阳工业大学

【发表日期】

：

2020年01期

【关键词】

：

Hadoop 数据挖掘医疗保险 K-Means算法 Light GBM模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随计算机和互联网的广泛应用,人类产生、创造的数据量呈现出爆炸式的增长,我国已经成为全球数据总量最大,数据类型最丰富的国家之一。与此同时,人类也是数据的使用者,如何将数据进行相应的处理,使其转化成为有用的信息已经成为当前机器学习领域一项重要的研究内容,由此数据挖掘技术应运而生。医疗保险作为社保最重要的一部分,同时也是人们生活的基本保障,充分利用每天产生的海量医保数据,并对其进行数据挖掘,发现数据之间存在的联系,对提供疾病的临床支持和科学决策、改善医疗治疗效果以及辅助政策的定制和修改等都有实际意义。目前,国内外许多研究人员将数据挖掘技术应用于医保数据的研究工作中,包括医疗费用的分析、医保欺诈的识别、相关疾病的合理用药、医保系统的管理等。本文提出利用数据挖掘相关技术对不同的医保数据分别进行分析和预测两个实验,对心脑血管疾病数据进行探索分析得到心血管疾病与某些属性特征的内在关联。对糖尿病的血糖值进行预测,通过特征工程来不断更新候选的数据集,再经过训练得到学习能力较好的预测模型,通过交叉验证,以均方误差作为模型的评判标准,并得到血糖的预测值,提高预测的准确率。对数据的分析和预测是在普通计算机上搭建的Hadoop集群实现的,并使用MapReduce框架进行并行计算处理。通过数据获取、数据预处理、数据可视化分析、数据挖掘、特征工程、不断模型训练、多次交叉验证,实验结果得到了心血管疾病与某些属性内在联系,证实最终得到的糖尿病模型在预测准确率方面有了明显的提升。

其他文献

葵花盘霉变标志物的制备及在中药安全性评价中的应用

目的制备葵花盘霉变标志物,并探讨其在中药安全性评价中的应用。方法采用柱色谱、薄层色谱等技术,分离制备葵花盘霉变标志物。建立以薄层色谱技术为基础的葵花盘霉变安全性评

期刊

葵花盘霉变标志物中药安全性评价

循证护理在糖尿病患者健康教育中的应用

目的观察应用循证护理的方法对糖尿病患者进行健康教育的效果。方法将80例糖尿病患者随机分为观察组（40例）和对照组（40例），对照组采用传统护理方法，观察组应用循证护理，评价比较两组

期刊

循证护理糖尿病健康教育

利用Vericut虚拟仿真技术辅助数控课程教学的研究

利用Vericut数控仿真软件的虚拟机床建模与仿真等功能，辅助数控课程各教学环节，实现机床机构与运动仿真、加工仿真、程序优化、教学素材准备、实践教学结合等诸多教学内容与目

期刊

VERICUT数控虚拟机床

加强高职学生思想教育的措施探析

高等职业教育环境要求高职教师不断转变教育观念，注重学生的思想教育，在依靠家庭教育、社会教育的基础上鼓励学生主动参与，共同营造利于创新的成才环境；教师需要不断提高自身能力

期刊

高等职业教育学生思想教育人才培育

试论新课标背景下中学英语教师的专业素养及其提升策略

综述国内外有关教师素养、英语教师专业素养的理论,建构中学英语教师专业素养框架,提出其主要构成要素包括课程素养、学科素养、教学素养和研究素养。在阐释各要素内涵的基础

期刊

高中英语课程标准教师素养英语教师专业素养提升策略

基于Hadoop的医保数据挖掘研究

其他学术论文