基于知识简约方法对Apriori算法的改进

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:lklqlk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据中所蕴含的一类重要规律,对关联规则进行挖掘是数据挖掘中的一项根本性任务。关联规则挖掘通过分析事务数据集,从中挖掘潜在有价值的知识。最为人所熟悉的关联规则挖掘例子有“啤酒与尿布”。   本文首先介绍了数据挖掘技术的相关理论,并结合关联规则的基本概念重点分析了经典Apriori算法。Apriori算法通过设定最小支持度对事务集中的项进行筛选,从而得出所有频繁项集,但是该过程中多次扫描数据库以及生成大量的候选项集极大的制约了该算法的执行效率。接着,本文对粗糙集理论的基本概念作了比较详尽的介绍,并通过一示例介绍了粗糙集理论中的知识约简方法。粗糙集理论是一种能有效的处理不确定、不精确和不完整数据的数学工具,它引入数学中的等价关系,在保持数据的分类能力不变的情况下对数据进行划分。   鉴于粗糙集理论处理模糊不确定知识的特性,本文随后针对Apriori算法实现了一种改进算法--RSApriori算法。RSApriori算法首先通过项集预处理操作对事务集中的项进行筛选,排除无意义的项,这就避免了生成大量的候选项集,然后利用粗糙集理论中的知识约简方法对项集进行约简,这就避免了多次扫描数据库。最后,通过三个实验,将改进的算法与经典的Apriori算法进行比较。   通过实验表明,改进的算法在不改变原始事务集的分类能力的情况下,无论在挖掘效率还是运行时间上都明显比Apriori算法要好。
其他文献
随着无线通信技术的迅猛发展,可用的频谱资源变得越来越紧张,尤其是随着无线局域网、无线个域网和无线城域网等技术的高速发展,目前的宽带无线应用技术已无法满足人们的需求
随着数据库技术的快速发展,各个领域堆积的数据也越来越多。数据库虽然有着很强大的采集数据和存储数据的能力,但是数据分析能力却相对薄弱。无法挖掘到隐藏在海量数据背后的信
随着计算机网络应用的普及和发展,信息安全作为新兴学科日益受到重视。受CPU串行体制的限制,传统的串行密码算法已经越来越不能满足信息安全对运算速度和系统安全性的需求。基
无线传感网被广泛地应用于国防、环境检测、医疗卫生以及交通等领域。具有实用性强、应用范围广、使用灵活等特点。而时间同步是无线传感器网络的关键技术之一,受到越来越广
延迟容忍网络主要是指由于节点移动、部署稀疏等原因而使得端到端的数据传输路径常常处于间歇性连通或者长时间中断状态的一类网络。数据聚集,通过将相关联的数据包进行聚集操
事务存储和线程级推测是解决并行编程难的两种经典有效的方法。虽然它们所解决的问题不同,但是却有很多的相似之处,在一定的条件下可以相互转化,可以将这两种方法结合起来构成混
随着社会老龄化进程的不断发展,老年人口所占比重也逐年增加,伴随而来的老年人群的日常行动安全也成为社会关注的焦点。老年人的生理特点造成了他们这一人群的特殊行为特征—
携能通信(Simultaneous Wireless Information and Power Transfer,SWIPT)技术,可挖掘蕴藏无线射频(Radio Frequency,RF)信号中的能量,并供给网内终端用户使用,从而为延长能
随着信息化社会的发展,通过网络进行信息的检索,已经成为人们获取信息的主要来源。网络中中文信息的爆炸性增长,给中文自然语言处理的发展应用带来了挑战和契机。本文主要是在基
随着社会的不断进步,网络技术得以迅速发展,接入网作为连接用户与核心网的重要网络组成部分,其相关接入技术也在日益增多。而在这些接入网技术中,光纤无线宽带接入网络(Fiber