粗糙集理论处理海量电子病历的研究与应用

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:laumingka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智慧医疗的兴起,大量的医疗数据资源被整合到一起。医疗大数据作为一笔宝贵的财富,它的知识挖掘已经成为当前学术领域的一个研究重点。由于数据量和冗余属性的增多,使得知识挖掘出现困难。如何对海量医疗数据实现有效的降维,提高知识挖掘的效率,是本文的研究方向。粗糙集理论在探究不完备数据、不准确知识表述、概括、学习等方面十分强大,属性约简是其主要应用之一。本文总结常用粗糙集属性约简算法存在的问题,提出粗糙集属性约简与禁忌搜索算法相结合的优化策略以及并行化方案,并利用仿真实验和疾病分类实验对算法性能进行验证,不仅给约简算法的改进提供了很好的思路,同时为大数据集的高效处理提供了可能。具体的研究内容如下:(1)通过查阅相关国内外文献,对常见的粗糙集属性约简算法进行分析,总结出各算法之间存在的问题,确定了本文研究的主要内容。(2)针对粗糙集理论和禁忌搜索算法的特点,提出禁忌搜索属性约简算法。首先描述算法的组成,包括解的表示形式、解精度度量、禁忌列表、产生邻近候选解、广泛性和集中性模式,然后介绍算法的整个实现流程。同时为了提高禁忌搜索的属性约简算法的扩展性,提出了禁忌搜索的属性约简算法的并行化方案。(3)为了测试禁忌搜索属性约简算法的基本性能,以UCI数据集作为实验数据,利用本文提出的算法和几种常见的属性约简算法进行仿真实验,根据实验结果,分别从可行性、稳定性、约简效果等方面对各算法进行对比分析。(4)为了测试禁忌搜索属性约简算法的有效性,搭建Hadoop实验环境,以海量电子病历作为实验数据,在数据预处理阶段使用传统的四种属性约简算法和本文提出的基于禁忌搜索的属性约简算法进行属性约简,在分类阶段使用朴素贝叶斯分类算法构造5种疾病分类器。通过疾病分类实验,对基于禁忌搜索属性约简算法的有效性进行证明。
其他文献
权威部门的调查结果表明,超过80%的安全威胁来自内部人员犯罪或通过内部进行的攻击。内部人员通常很容易获得存储信息的计算机终端的完全控制权,现在居于垄断地位的Windows N
农业信息的获取、传输、处理和应用是数字农业研究的四个重要组成部分,无线传感器网络为农业领域的环境监测、数据采集与处理提供了一种有力的解决方案,避免了传统农业数据采
几本、几十本乃至究千上万本原子、分子通集它们之间的相互本除力组合究一些相对稳使的物质,这些物质允称为团簇。团簇会根本原子位置的本同而本现本同的本或;团簇的物理、化
随着网络技术的迅猛发展,电子商务作为一种全新的企业经营手段迅速发展并逐渐成熟。基于移动Agent技术的智能电子商务系统,克服了传统电子商务技术的不足,有着巨大的应用前景
近年来,失业人员数量的不断增加已经成为影响社会稳定的重要因素,为此无锡市劳动局加强了对失业人员的管理。为了达到有效管理失业人员的目的,无锡市劳动局开发了一套无锡市社区
随着大数据、云计算技术的快速发展,网络中数据的管理统一、维护的便利性和数据的高安全性方面的要求也更加严格。在网络的使用过程中,确保网络流量的正常是网络健康有序运行
车牌识别系统(LPR)是智能交通系统的核心组成部分,广泛应用于交通部门的违章检测、高速公路自动收费和智能停车场管理等方面。车牌识别系统主要包含图像预处理、车牌定位、车
随着对存储需求量的不断增长,用户对数据的连续可用性的需求标准也不断提高。如何快速有效地保护和恢复数据,已成为目前信息存储领域的研究热点。连续数据保护便是实现此要求
触摸屏是一种集显示器、鼠标器和键盘等功能于一体的新型人机界面,不仅能显示丰富的多媒体信息,而且集成触控和键盘输入的功能,体积小巧,特别适合嵌入式设备特别是便携设备上
网络分析作为GIS最主要的功能之一,是地理信息系统的重要组成部分,在电子导航、交通旅游、城市规划以及电力、通讯等各种管网、管线的布局设计中发挥了重要的作用,是研究的一个
学位