论文部分内容阅读
到目前为止已经有许多数据挖掘的算法,能够在关联规则(association rules)时有较高的效率.不过这些算法一般都是适用于对静态数据库进行挖掘,一旦数据库的数据发生变动便只能选择重新执行一次该算法.而在实际的应用中,数据库发生变动的机率是相当高的,所以如何从数据发生变动后的数据库中高效率地对已经推导出的关联规则进行更新具有非常重要的应用价值,这就是所谓的增量式挖掘关联规则(Incremental Mining of association rules)的问题,在数据量不断增加的状况下越来越受到广大学者的重视.在该论文中,我们针对增量式挖掘关联规则的问题提出了二个高效进行增量式挖掘关联规则的算法,在该论文中我们简单的将这二个算法命名为PAIMA(Power Algorithm for Incremental Ming Added)以及PAIMG(Power Algorithm for Incremental Ming General).PAIMA是专门处理当数据仅有新增情形时,通过对知识数据库的维护,有效地降低更新关联规则所需要付出的成本,最多只需要扫描原始数据库(original database)一次,并且以所保留下来的原始高频项目集(frequent itemsets)建立变动数据(incremental data)候选项目集(candidate itemsets)的过滤条件,在新增数据情形时,最好的状况甚至可以完全不用重新扫描原始数据库,而最差的情形也只是利用变动数据所产生的高频项目集作为候选项目集扫描原始数据库.而PAIMG不仅可以处理新增,还可以处理数据发生删除的情形,PAIMG利用知识数据库中保留的最小非高频项目集来产生新的候选项目集,同时为避免产生的候选项目集数量过于庞大,知识数据库中所保留的哈希表将会提供一个有效地解决方法.实际结果则更进一步地验证PAIMG算法的效率,特别是在原始数据库的数据明显大于变动的数据时,在效率上会有比较优异的表现.