论文部分内容阅读
Apriori算法是频繁项集挖掘的经典算法。针对Apriori算法的剪枝操作和多次扫描数据集的缺点,提出了基于散列的频繁项集分组(HFG)算法。证明了2-项集剪枝性质,采用散列技术存储频繁2-项集,将Apriori算法剪枝操作的时间复杂度从O(k×|L k|)降低到O(1);定义了首项的子项集概念,将数据集划分为以I i为首项的数据子集并采用分组索引表存储,在求以I i为首项的频繁项集时,只扫描以I i为首项的数据子集,减少了对数据集扫描的时间代价。实验结果表明,由于HFG算法的剪枝操作产生了累积效