数据挖掘中快速关联规则发现算法研究及应用

来源 :河北工业大学 | 被引量 : 8次 | 上传用户:anmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。关联规则在数据挖掘是一个重要的研究内容,而频繁项目集的发现在关联规则的提取中占着主导地位。目前已有的许多关联规则采掘算法,都采用大量的循环,复杂度很高,需要占用大量时间和空间。 本文在分析以往各种算法的基础上,提出了一种适用于长模式挖掘的不产生候选集的关联规则改进算法,我们利用数据库查询语言存储FP-tree的信息而不建立FP-tree结构,提出约简属性和直接从频度表(f_list)中提取CLOSET的方法,从而节省时间和空间。同时,把这种思想运用到发现函数依赖和近似函数依赖,避免了以往算法采取的组合运算。当函数依赖的左项是长模式时,尤其能显示算法的优越性。对于短模式的提取,本文提出交互式模式提取算法,根据每步产生频繁集和非频繁集的个数来判断采用何种算法,交替的进行模式分解,每步运算都改变事务集,并且每步分解的模式用于建造下一层的数据集。当频繁集的个数小于非频繁集的个数时,采用频繁集进行模式分解,是本文的又一创新点。 实验结果证明,采用以上算法在各自适应的领域都取得了很好的结果。另外,把算法应用于教学教务数据、税务数据和电信数据,提取出的一些规则可以辅助各部门做出利于自己发展的决策。
其他文献
该文研究的重点是以分布式GIS中的QoS问题为出发点,通过对GIS服务质量因素、图层并发控制和空间索引结构等问题的研究,为进一步系统地研究分布式GIS中的QoS问题做铺垫.该文同
我们生活在一个信息过载的时代,网络技术的迅速普及和各种应用的丰富发展,使人们越来越多的使用互联网的服务,在互联网上积累了过于庞大的数据。“信息爆炸”是一个越来越引起人
随着网络技术的发展,各种网络应用在人们的生活中日益普及,人们可以通过网络共享信息,进行交流,处理生活和工作中的各种问题。虽然网络给人们的工作、生活和学习带来极大的方便,但
该文简要介绍了公钥基础设施的发展现状和应用前景,分析了PKI的体系结构和其提供的安全服务,介绍构建PKI系统中所用到的安全和编程技术,并提出了一个基于X.509协议的PKI系统
近年来,随着智能家居概念的普及,智能家居的发展越来越快,很多智能的家居用品如智能冰箱、智能洗衣机等都逐渐融入了人们的生活。一些IT界巨头Google、微软等都在智能家居领域投
社交网络已经成为人们日常生活的一部分,越来越多的人加入社交网络以方便和亲友之间的交流。他们通过社交网络共享文章、照片和视频等内容,发表对生活的感言、对社会事件的看法
本文首先介绍了电子邮件管理系统的现状,指出在系统的服务器端邮箱管理和系统用户信息管理以及系统的发布与恢复方面,仍存在着不足之处,并认为活动目录技术为解决这些问题提供了
将软件构件技术应用于操作系统领域,针对操作系统软件特有的特性,提出操作系统构件的概念,分析操作系统构件的特征,结合青鸟构件库技术,设计.开发操作系统构件库,是该文的工
该文首先介绍了自动文摘的研究情况及存在问题,并给出了计算机自动文摘的一般模型.我们在具体的文摘系统实现时,应用了两种使用了自动聚合思想进行隐式章节划分的方法.该文从
随着信息技术的发展,计算机网络正以惊人的速度向各个领域渗透,它帮助人们可以在虚拟世界里从事越来越多的复杂活动。然而,网络在为人们提供便捷生活的同时,其带来的安全问题也越