论文部分内容阅读
由于应用性的数据的爆炸式增长(如商业分析),及计算机的软硬件技术的发展完备,数据挖掘已经成为近几年来应用最广泛的分析数据的工具。挖掘重要数据仍然需要配合许多其他领域的技术才能得到完善有效的结果,其中包括机器学习,人工智能,统计学原理,数据库系统,数据可视化等。然而目前大多数挖掘关联规则的算法往往必需多次扫描事务数据库才能达到要求的目标,这样重复性的数据库存取动作将会导致过多的执行时问浪费在I/O动作上,另外在频繁集生成规则时现有的算法没有考虑到规则的大量冗余,为了解决这个问题本文提出了一个不需要生成候选集同时有效的去除生成规则时产生大量冗余的算法QAIS,来提高关联规则生成的速度,并且在此算法基础上提出了新颖的关联规则增量更新算法AIU,通过应用合成数据验证了QAIS/AIU算法的有效性,由试验结果来看这个方法确实能更有效且准确地获得事务数据库的关联规则,尤其适合挖掘超大数据库中高支持度下长模式的挖掘。然后论文介绍了关联规则的一种扩展—时间序列模式挖掘方面的算法,给出了Web日志文件挖掘的高效、新颖的改进算法,并用实验验证了此种方法的有效性。论文的最后讨论了关联规则挖掘领域面临的几个问题。