基于粗糙集属性约简的分类算法研究与应用

被引量 : 0次 | 上传用户:liouyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是数据挖掘领域的一个重要课题,目的在于根据数据集的特点产生一个分类模型,把数据库中未标记的数据映射到给定的具体类别中的某一个。分类的技术主要有两类,一类是基于传统技术,只适合处理确定性的问题;另一类是基于软计算技术,可以灵活处理不确定性,不完整性以及非均匀性的数据。粗糙集是软计算方法中处理不确定性数据的数学工具。粗糙集是在不影响分类能力的情况下,通过属性约简的方式删除知识库中的冗余信息来导出问题的决策或分类规则。属性约简问题是粗糙集理论研究的主要内容之一,已经被证明为NP-hard(?)司题。常用的属性约简算法包括基于差别矩阵的基础算法和基于某种属性重要度的启发式算法等。本文首先介绍了经典的属性约简算法并分析了各自的优缺点,然后将粗糙集的最小属性约简问题和组合优化中的最小集合覆盖问题联系起来。先分析证明了属性约简问题和集合覆盖问题的等价性,在此基础上提出了一种基于改进的相关矩阵的属性约简算法,即先对决策表进行简化,然后对相关矩阵进行预处理,这样有效的避免了空元素和重复元素的存在,经处理后的相关矩阵比传统相关矩阵更简单,在其基础上实现了最小属性约简算法,能够快速求出决策表的最小属性约简并且节省了存储空间。理论分析和实验表明,基于改进的相关矩阵的属性约简算法可减小属性约简的搜索空间,提高约简的效率。由于粗糙集对噪音敏感,在噪声大的环境中存在分类不精确的问题,需要与其他软计算理论和方法相结合。使用神经网络分类时,如果文本特征维数过高就容易导致神经网络不易收敛,文本分类精度低,学习时间太长。所以本文在文本分类中将粗糙集理论和神经网络结合起来,提出了新的分类模型,即粗糙集-神经网络分类模型,把粗糙集的属性约简作为神经网络的前端,将经过特征选择的向量空间模型转化为决策表并离散化,然后对其进行属性约简,以便降低特征空间的维数,缩短神经网络的学习和训练时间,提高分类的精度。最后用该模型对复旦大学李荣陆提供的中文分类语料库进行了文本分类,实验结果表明,该分类模型有更高的分类准确率、召回率和F1值。最后,结合北京慈铭健康体检集团的实际数据库,运用粗糙集-神经网络分类模型进行体重预测,准确率达到了77.6%。
其他文献
邓小平依法治国思想是邓小平理论的重要组成部分,其依法治国思想可概括为:治国安邦,要实现从个人到制度、人治到法治的转变;建设法治,要处理好民主与法制、执政党与法、权力
简要回顾语境研究的来源及发展,对各家各派关于语境的定义、要素、分类及功能的理解进行了叙述。
区域金融发展差异是趋于发散还是趋于收敛,各学者的研究有所不同。在吸纳前人已有研究的基础上,选用两种方法对中国1978年至2008年31年的数据进行研究,得到结论:我国区域金融
一个经济体在经济起飞之后,由较长时间的高速增长转入中高速或低速增长是世界经济的普遍规律。改革开放以来,中国依靠先后进行的农村土地承包制改革、国有企业民营化改革和20
铁路国有企业体制在管理体制、科技创新方面不断地进行改革,广泛地运用新的设备技术、新的管理经营模式、高科技的知识型人才,使得铁路的大规模建设取得了明显的进步。可是,
科技的发展通常不是突如其来的,向来都是在人类的进步和前人的创新和启发中演变的,装置艺术也是这样。装置艺术经过短短几十年的发展,现在已然成为当下艺术中的潮流。由于它
墨尔多是嘉绒地区的一位名山神,墨尔多神山是嘉绒地区的第一大神山。坐落在丹巴墨尔多神山下的墨尔多庙是一个供奉神祇十分复杂的寺庙,所供神祇有佛教,有苯教,也有道教,呈三
<正>近年来,很多大学生转变观念,不再被动择业,而是主动就业。有的大学生借助创业贷款勇敢地自主创业,有的则通过岗位开放进入金融系统工作。恩和门德、张莉华、张海波,都是
本文从供需视角出发对现行保障性住房供应体系的运作过程展开观察,从中发现现行保障性住房供应体系存在着供求关系严重失调的深层问题,而这些问题正是造成当下保障房被动困顿局