频繁模式挖掘相关技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:q19891210626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与信息技术的普及及大容量存储技术的发展,人们在日常事务处理和科学研究中积累了大量宝贵的数据。如何从中提取或“挖掘”用户所需要的信息,是当前信息科学和技术领域面临的一大挑战。频繁模式挖掘是数据挖掘领域的一个基本问题,研究内容一般包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索引等等。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。 本文对频繁模式挖掘相关技术进行了研究。重点研究了以下几个问题:将互关联后继树模型引入频繁模式挖掘方法;利用静态IS树高效挖掘频繁项集和频繁闭合项集;利用模式增长方法在有序树构成的森林中挖掘嵌入式频繁子树;在无序树构成的森林中挖掘直接频繁子树;及相关的实现技术等。本文研究内容和创新工作主要包括以下五个方面: 1)基于IS~+-树模型的频繁模式挖掘 互关联后继树模型是一种新型的全文存储索引模型。这种模型充分利用了字符序列的有序性和冗余性,适用于海量的全文存储和索引。互关联后继树模型是一种通用的模型。本文扩展了互关联后继树模型的应用领域,首次提出一种基于间接互关联后继树模型(IS~+-树)的频繁模式挖掘算法。算法特点是:挖掘任务只局部关联于一棵根树;动态更新性好,仅做增量变化:算法简单实用。与传统方法相比,该算法具有较好的挖掘效率。 2)基于静态IS-树的频繁模式挖掘 间接互关联后继树在强调了通用性的同时损失了效率。本文进一步提出一种基于静态IS-树专用模型的频繁项集挖掘算法IS-mine。IS—mine直接构造频繁项集,不进行候选集产生与测试操作;算法采用深度优先,模式增长的策略,挖掘任务只在一棵静态的IS-树上进行,避免代价较高的动态树的构建;针对不同特征的数据集,算法采用不同的过滤技术缩小搜索空间。实验与理论分析表明,对于稠密和稀疏数据两类数据集,算法都具有较好的时空效率。 3)高效频繁闭合模式 频繁闭合模式提供了完全频繁模式的所有信息,但数量却可以少几个数量级。本文提出一种基于静态IS-树的频繁闭合项集有效算法IS-Close。算法采用静态投影,模式增长的方法;用多种策略,尽量在算法运行的早期利用闭合项集的各种
其他文献
地表粗糙度是反映地表起伏变化与侵蚀程度的指标。目前,它与水力糙率之间关系的研究结果还没有统一的结论。在上方来水条件下,从水力学的角度出发,探讨了地表粗糙度与水力糙率之间的关系,地表糙度受土壤的理化性质、降雨或上方来水情况等因素的影响很大,具有随机性;地表糙度对水力糙率的作用是一个动态变化的过程,并不总是呈现一种变化规律,在这中间存在一个临界值,在临界值后,二者的变化规律趋向稳定。
砂处理工艺是为了降低铸造所产生的一系列的污染,可砂处理后的废砂无法得到利用,所以就有了砂处理的再生处理工艺。粘土旧砂再生后可以代替部分新砂,降低铸造废弃旧砂的排放
文章设计的液压试验台是一种效率高、质量好、成本低的试验台,它是用来测试各种适于大功率机械的泵、缸和阀的压力、流量等。
“讨论式教学法”在语文教学中的运用是教学思想的一个解放,它提供了师生集体研究探索问题的条件和环境,是培养学生实践能力和创新精神的文明途径之一。本文就讨论式教学法如何
针对损坏文件的复原工序,多利用人工进行拼接复原,尽管人工复原能够较好的满足要求,但是其耗时较大,无法满足大量复原的现实要求,计算机拼接复原系统能够较好地解决该问题。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着经济的快速发展和人们生活水平的日益提高,人们对建筑内空气品质的要求也越来越高,同时建筑能耗占终端能耗的比例也在日益增大,我国终端能耗中建筑耗能占比达到近三分之一,建筑节能和建筑热舒适的研究受到国内外的广泛关注。利用可再生能源是实现建筑节能和提高室内空气品质的有效措施,太阳能墙就是利用太阳能这种可再生能源进行室内热环境控制和调节的一种方法。然而太阳能存在间歇性和不稳定性,使得通过太阳能供热具有周
XML已经成为互联网上数据表示和数据交换的标准。随着XML文档数据量和文档数量的快速增长,随之而来也产生了很多问题,其中很重要的一个问题就是如何有效的查询这些文档,也就是结