增量式更新关联规则的算法研究

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:XHR
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
到目前为止已经有许多数据挖掘的算法,能够在关联规则(association rules)时有较高的效率.不过这些算法一般都是适用于对静态数据库进行挖掘,一旦数据库的数据发生变动便只能选择重新执行一次该算法.而在实际的应用中,数据库发生变动的机率是相当高的,所以如何从数据发生变动后的数据库中高效率地对已经推导出的关联规则进行更新具有非常重要的应用价值,这就是所谓的增量式挖掘关联规则(Incremental Mining of association rules)的问题,在数据量不断增加的状况下越来越受到广大学者的重视.在该论文中,我们针对增量式挖掘关联规则的问题提出了二个高效进行增量式挖掘关联规则的算法,在该论文中我们简单的将这二个算法命名为PAIMA(Power Algorithm for Incremental Ming Added)以及PAIMG(Power Algorithm for Incremental Ming General).PAIMA是专门处理当数据仅有新增情形时,通过对知识数据库的维护,有效地降低更新关联规则所需要付出的成本,最多只需要扫描原始数据库(original database)一次,并且以所保留下来的原始高频项目集(frequent itemsets)建立变动数据(incremental data)候选项目集(candidate itemsets)的过滤条件,在新增数据情形时,最好的状况甚至可以完全不用重新扫描原始数据库,而最差的情形也只是利用变动数据所产生的高频项目集作为候选项目集扫描原始数据库.而PAIMG不仅可以处理新增,还可以处理数据发生删除的情形,PAIMG利用知识数据库中保留的最小非高频项目集来产生新的候选项目集,同时为避免产生的候选项目集数量过于庞大,知识数据库中所保留的哈希表将会提供一个有效地解决方法.实际结果则更进一步地验证PAIMG算法的效率,特别是在原始数据库的数据明显大于变动的数据时,在效率上会有比较优异的表现.
其他文献
在社会主义建设飞跃发展的时代,一张省报的根本性的报道思想是什么?这个问题,我们曾有过不少争论。经过几年(尤其是1958年)以来的工作实践,我们的思想逐步明朗起来,似乎找到
在我国市场经济的发展进程中,房地产业一直扮演着重要的角色,是我国国民经济的主导产业、支柱产业。行业逐步发展和完善的过程中,会在不同程度上受到压力和冲击,特别是在国家
党的十一大和五届人大一次会议以来,全国各条战线的面貌确实发生了巨大的、令人信服的变化,先进地区、先进单位大量涌现。我们的记者去报道这些先进典型和经验,广大读者是欢
中华新闻工作者协会研究部,在3月18日下午举办了新闻通讯采访写作经验交流会。中国青年报副总编辑纪云龙在会上介绍了“为了六十一个阶级弟兄”
本文研究了在不确定使用场景(压力条件)下多元件系统的结构设计方案和维修方案。传统的系统设计和维修策略一般分开制定,但本文在考虑系统全寿命周期成本的情况下,将提供一种集成
近几年来,汽车消费信贷在国内发展迅猛,但是伴随这一业务的市场规模的迅速增大,违约的情况也越来越多,风险也逐渐暴露,甚至作为风险的重要承担者的保险公司退出市场更进一步
本文就社会经济发展与城市土地利用关系这一课题,利用定性分析与定量模型研究相结合的方法对其进行深入系统的研究.本论文依托武汉市土地利用规划修编项目,在定性理论研究的
轮胎故障是造成交通事故的主要原因之一 .但是目前大多数轮胎故障监测方法由于需要使用各种复杂的传感器因此制造代价高昂且不可靠 .为此 ,提出了一种新型实用的轮胎故障观测
医药物流体制不合理,医药物流成本居高不下已经严重影响了中国医药行业在市场经济改革中得稳定发展.该论文导入了现代物流的先进思想,结合上海医药行业的特点,对上海医药物流
随着信息技术的发展和互联网的普及,发达国家的第三方物流企业通过建立完善的物流信息系统达到提高竞争力的目的,而我国的物流研究还处于初级阶段。充分利用最新的信息技术,更新