一次性条件约束的序列模式挖掘

来源 :河北工业大学 | 被引量 : 2次 | 上传用户:cqjava
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际应用领域中存在大量的序列数据,这些序列数据中隐藏着丰富的有价值的知识。如何在序列数据库中挖掘频繁出现的序列模式,是序列模式挖掘的重要任务。随着信息技术的高速发展和互联网的迅速普及,序列模式挖掘已成为数据挖掘领域中一项非常重要的研究任务。本文研究的一次性条件约束的序列模式挖掘,是带通配符的频繁模式挖掘问题的一种,是基于传统的模式挖掘问题上的提高,它允许挖掘出的频繁模式中含有通配符并满足一次性条件。引入一次性条件具有重要的理论价值,同时在实际应用中,找到模式P的所有出现有时也是不必要的。因此本文主要针对一次性条件约束的序列模式挖掘算法进行研究,以进一步提高频繁模式的挖掘效率。本文的研究内容和相关工作如下:1.本文研究的一次性条件约束的序列模式挖掘是基于模式匹配技术的,应用网树结构设计了三种算法来计算候选模式的支持度,即Cal-SGSP(Calculating Support with Strategy of Greedy-Search Parent)、Cal-SRMP(Calculating Support with Strategy of Right Most Parent)和Cal-SBO(Calculating Support with Selecting Better Occurrence).Cal-SGSP算法在寻找模式在目标序列的一个出现时,采用贪婪搜索双亲策略,每一步都寻找当前结点的一个近似最优双亲;Cal-SRMP算法则采用最右双亲策略,每一步寻找当前结点的最右双亲结点作为当前该模式的一个出现位置;Cal-SBO算法则择优使用两种策略,寻找相同叶子结点的两个出现并选择出现相关数最小的作为候选模式的一个出现,最后返回候选模式的支持数。2.给出了基于网树结构的一次性条件约束的序列模式挖掘算法的框架。通过调用以上三种应用网树结构的模式匹配方法计算候选模式在给定的序列上的支持数,最后以此来判定该模式是否是频繁模式,形成了三种一次性条件约束的序列模式挖掘算法,即SGSP-Mining,SRMP-Mining和SBO-Mining算法。同时为了避免待检测的候选模式过多,算法采用Apriori性质进行剪枝,以减少对候选模式支持数的计算。3.选取有代表性的数据集和对比算法,设计了大量的对比实验,从算法的挖掘结果和挖掘效率两方面对实验结果进行了分析,验证了本文提出的三种算法的有效性。
其他文献
澳门经济是一种典型的出口导向型海岛经济,对外贸易是澳门经济的生命线。随着中国加入世贸组织,澳门航运转口额将会增加,但现今澳门船运业基本仍然停留在以手工管理阶段,没有充分
植物种类繁多,其叶子、花朵、树干等都是植物分类的重要依据。在花卉种类识别中,由于其特征种类繁多,如何根据有效的特征对植物进行分类是研究人员的重要任务。在计算机发展
随着近些年互联网技术和信息采集技术的快速发展,人们所获取的图像数据数量及图像维数都越来越高,如何有效地表达图像特征,方便图像的语义理解,已成为图像处理、模式识别及图像标
图象分割是计算机视觉研究中的基本问题,而运动和纹理则是赖以进行图象分割的关键信息。传统的研究方法中通常孤立地探索二种信息在图象分割的作用。本文研究纹理和运动信息在
本文通过研究和利用一个优秀的面向对象的设计模式和框架:ACE(ADAPTIVE Communication Environment),介绍了开发多媒体会议的技术,该多媒体会议使用了SIP信令控制协议,同时也
文中首先介绍了分布对象技术的概念、现状和发展动态以及目前流行的主流技术.然后谈及Web技术及发展,并且结合Java语言特有的优势,具体阐述了Web技术的Java实现.最后结合中石
随着Internet的普及和迅速发展,基于网络的应用越来越多,对性能的要求也越来越高.组播应用是网络应用的一个重要方面,同时,组播也是一个高效的网络数据传播模型.国际上对IP组
企业安全生产管理中的重要手段之一是调度系统,在工业界、企业界、交通运输管理、公安和消防等多数部门中,时时需要用调度系统来快捷的指挥以及调度人力和物资,迅速的传递命令和
数字化作为当今时代的特征,正越来越影响着人们生活的方方面面。随着电子商务、电子政务和办公自动化的发展,基于生物测定学的生物认证技术越来越受到人们的重视。凭借传统签名
随着高性能计算机、快速信息交互网络的出现,分布式人工智能、计算机协同工作、数据挖掘和数据仓库等高新技术的迅猛发展,基于主体的智能协作信息系统越来越多地出现在人类社