关联规则的有趣性研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:nesecueity
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘用于发现大数据集中数据间的关联关系,是数据挖掘技术中重要研究方向之一.关联规则兴趣度可以发现有趣的规则或模式.该文从客观和主观两方面讨论了目前常见的一些兴趣度度量,说明了设计兴趣度度量时期望满足的三个性质.我们比较了其中21种度量,指出并不是所有度量都满足期望的三个性质,并且在实际应用中应根据不同的挖掘任务选择不同的兴趣度度量.在分析了支持度-可信度框架不足的基础上,我们介绍了新的兴趣度:完全可信度与联结度,并给出了完全可信度和联结度的形式化定义,证明了完全可信度与联结度具有的一些性质,包括:1)完全可信度与联结度都满足向下封闭性质:2)完全可信度与联结度的关系;3)支持度与完全可信度、联结度的关系;4)可信度与完全可信度、联结度的关系.在改进原有的划分算法基础上,我们进一步提出了基于完全可信度联结度的关联规则挖掘算法.该算法分为两步:第一步,在数据库的每个划分上,利用完全可信度或联结度来产生局部大项集,第二步将产生的所有划分的局部大项集合并,求满足最小完全可信度或联结度的全局大项集.整个过程只需扫描两次数据库.我们将算法分别应用在人工数据集和现实数据集中,通过分析算法的性能,发现利用完全可信度、联结度可以有效地发现频繁集,但采用人工数据集和事实数据集得到的结果是有差别的,同时发现实验得到的结果和证明得到的性质是一致的,利用联结度和完全可信度,可以发现支持度和可信度较小的有趣模式.
其他文献
目前,在社会化标签系统中推荐搜索研究主要聚焦在标签的推荐。也就是说给定一个用户和一个资源,推荐系统预测用户用什么样的标签来解释这个资源,怎样去开发面向资源的个性化
随着Internet的技术的发展,到2005和2015年之间就会面临着IPv4地址耗尽的问题,为此IETF开发了IP协议的一个新版本——IPv6,它使70年代设计的IPv4更具有现代化。人们预期随着Inte
随着事务处理建模、协同处理、工作流等相关技术的发展,Petri网因其既有严格的形式定义,又有直观的图形表示,既有强有力的描述能力又有丰富的系统分析技术等诸多优点也被应用
J2EE(Java2EnterpriseEdition)是美国Sun公司推出的一种基于Java的开发与应用平台,使用J2EE技术能够快速建立可伸缩性企业应用系统。统一建模语言(unifiedmodelinglanguage,UML
面向多任务的报表管理系统可以同时支持不同业务系统对报表的需求,它简化了业务系统的开发和维护,提高了程序的重用性。为业务系统的开发节省了人力、财力,而且报表管理模块的功
屏幕内容是指电子设备的屏幕而生成的图像或者视频序列,它在屏幕共享,屏幕传输,远程桌面和云计算等应用中有着重要的作用。然而,屏幕内容具有复杂的纹理结构和很高的图像对比度,这
该文讨论加密技术在网页保护中的应用方案,提出了一个以许可证为用户身份认证标志的加密保护方案,它有效地避免了用户名/口令保护方式的安全风险和外接硬件保护方式的附加成
包围盒问题是计算几何中的基本问题之一.在诸如图像处理、模式识别、CAD等领域有着广泛的应用.平面区域最小面积凸多边形包围盒是包围盒问题系列中最核心问题.该问题简单地说
演化算法是基于生物进化论原理发展起来的启发式高效随机搜索方法,当前,演化算法在科学研究、工程设计优化求解领域得到了广泛应用,并获得了长足的发展.演化算法的设计研究与
近年来,构件化操作系统成为研究热点,而对于嵌入式领域,因其软硬件丰富多样,对效率、规模要求严格等原因,需要操作系统能够非常灵活的定制,适应软硬件的变化,能够量体裁衣、