论文部分内容阅读
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。关联规则在数据挖掘是一个重要的研究内容,而频繁项目集的发现在关联规则的提取中占着主导地位。目前已有的许多关联规则采掘算法,都采用大量的循环,复杂度很高,需要占用大量时间和空间。 本文在分析以往各种算法的基础上,提出了一种适用于长模式挖掘的不产生候选集的关联规则改进算法,我们利用数据库查询语言存储FP-tree的信息而不建立FP-tree结构,提出约简属性和直接从频度表(f_list)中提取CLOSET的方法,从而节省时间和空间。同时,把这种思想运用到发现函数依赖和近似函数依赖,避免了以往算法采取的组合运算。当函数依赖的左项是长模式时,尤其能显示算法的优越性。对于短模式的提取,本文提出交互式模式提取算法,根据每步产生频繁集和非频繁集的个数来判断采用何种算法,交替的进行模式分解,每步运算都改变事务集,并且每步分解的模式用于建造下一层的数据集。当频繁集的个数小于非频繁集的个数时,采用频繁集进行模式分解,是本文的又一创新点。 实验结果证明,采用以上算法在各自适应的领域都取得了很好的结果。另外,把算法应用于教学教务数据、税务数据和电信数据,提取出的一些规则可以辅助各部门做出利于自己发展的决策。