【摘 要】
:
关联规则的研究是数据挖掘的一个重要分支,已经引起很多学者的广泛关注。本文介绍了数据挖掘技术的相关知识,尤其是关联规则的挖掘,并介绍了基本概念及经典的算法。过去的研
论文部分内容阅读
关联规则的研究是数据挖掘的一个重要分支,已经引起很多学者的广泛关注。本文介绍了数据挖掘技术的相关知识,尤其是关联规则的挖掘,并介绍了基本概念及经典的算法。过去的研究往往认为数据库各个项目的重要程度是相同的。而事实上,用户对项目的看重程度是不同的。因此已有算法挖掘出来的并不一定是我们感兴趣的规则。针对这种情况,提出了加权关联规则。另一方面,有时候我们关心的是数据库中那些低频率强相关的规则,即负关联规则。由于在加权关联规则的基础上同时挖掘正负关联规则,会产生一些矛盾的和无意义的规则,因此,在传统支持度——置信度框架下,引入第三个参数删除冗余规则。提出了基于相关性挖掘正负加权关联规则的算法;基于兴趣度的加权正负关联规则的挖掘算法;基于卡方检验的加权正负关联规则挖掘算法。当数据库分布极不均匀时,上述对于关联规则的挖掘并不是有效的。因为出现频率较低的项目其支持度往往较低,因此很少被挖掘出来。针对这个问题,提出多支持度的模型,对于不同的事务采用不同的最小支持度阈值,更有效挖掘出用户感兴趣的规则。以上关联规则均在频繁项集中挖掘,但负关联规则更多的是存在于非频繁项集中。本人提出了一种生成非频繁项集的算法,并采用相关性作为度量删除负关联中的矛盾规则,该算法有效的挖掘出大量的负关联规则。将上面的数据挖掘理论应用到关联规则的发现中我们完成了相应算法的设计并且通过理论分析和实验模拟讨论了算法的性能,证明算法是可行的、有效的。
其他文献
随着互联网技术和电子商务的飞速发展,各类企业都纷纷采用因特网和Web技术,将它们的主要服务搬到互联网上,以得到更强的自动性、更迅速的交易和更广阔的视野。SaaS(Software
随着数值计算技术的发展,使用数值模拟方法来制作引人注目的流体特效动画已在电影工业中成为一种趋势。在模拟计算中,小尺度的流体细节尤为重要,比如烟雾中的涡旋或是流沙中
我们生活在一个信息爆炸的时代,各行各业积累了大量的,甚至是海量的数据。根据世界知识产权组织的统计,专利文献含有世界每年发明创造成果的90%~95%,世界每年的申请量以100多
尽管文档分类作为一种知识组织方法在诸多场合有广泛的应用,但针对这类高质量数据的数据挖掘研究却不多。本文着重于利用文档分类结构的信息检索技术研究。对平行分类结构和
在自然语言中有大量非常规的语言学现象,如谚语,俚语,成语等,这些语言现象很难用标准的句法分析或者是传统的框架语义学等方式来解析。认知构式语法正是从特殊语言现象的分析
近年来随着城市化进程不断推进,人群密集的公共场所不断增加,公共安全问题成为公众关注的焦点。如何在地震、火灾等紧急事故发生时快速有效的组织人群疏散,最大程度的保障公
语义网是当前Internet技术的研究热点之一,其研究重点是如何把信息表示为计算机能够理解和处理的形式,并在此之上构建本体和推理规则,以实现基于语义的知识表示和推理。语义
排序函数是信息检索系统的核心部分,这是因为排序函数直接影响着检索结果的质量。近年来,排学学习,即通过机器学习的技术构建有效的排序函数,成为信息检索、机器学习和数据挖
人脸识别的应用已经不再局限于安防、身份验证等领域,特别是近几年兴起的互联网金融、智慧城市等都为人脸识别等生物特征识别技术提供了巨大的潜在市场。人脸自动识别系统主
近年来,企业信息化需求旺盛,同时对软件的个性化要求强烈。软件公司往往由于二次开发成本居高不下而难以盈利,软件工程技术在软件复用方面的快速发展,为解决以上市场难题提供