面向部分信息的时序数据挖掘方法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:jansan77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
已有的时序数据挖掘方法主要关注于时序数据在取值和时间两维上的总体信息,其知识生成过程主要是基于总体的、最显著的、全局的序列变化形式。但是对于很多数据挖掘问题,在取值维上细微的或在时间维上局部的序列变化形式往往蕴涵着另一种有用的知识。在取值维上,从时序数据中抽取出最符合领域特征的细微序列形式对更精确且更高效地分析时序数据是很有意义的。在时间维上,挖掘出只存在于某些时间段的知识与对应的有效时间段一方面可以发现新的知识,另一方面也可以更精确地表达知识本身。 本文对面向部分信息的时序数据挖掘进行了系统的研究,涉及的工作包括:1)对基于分解的数据挖掘问题进行了研究。具体包括:定义了时间序列的部分信息表示模型;给出了部分信息的抽取表示方法和相似度量方法,并证明了该方法类的有效性;提出了一种部分信息的有效性度量方法与部分信息的选择策略;最后,给出了时间序列的细微相似查询方法,并以此说明了基于分解的数据挖掘的实现方法。实验表明:较已有的基于全部信息的方法,本文给出的方法可以得到更符合领域特征的结果;同时,在以领域特征作为效果衡量准则的前提下,改写了一些常用的结论。 2)对局部序列模式挖掘问题进行了研究。具体包括:提出了实际应用中广泛存在的局部模式的表示模型与频繁度量模型;针对该问题,提出了一种索引结构——LP树以支持对公共子序列在局部区间的高效定位与计数,并给出了相应的模式挖掘算法;提出了一种可以将空间消耗限制在一定的域值之下,并且时间消耗线性增长的分段挖掘策略。实验结果表明该算法可以生成符合问题定义的局部序列模式,并且其效率较其他可用的数据挖掘方法有显著提高。3)对挖掘模式分布问题进行了研究。提出了一种基于已知模式或挖掘结果,发现并表达模式在数据集中的分布情况的方法:包括分布表示模型、分割选择策略和基于该策略的挖掘方法,该方法的时间消耗呈线性增长,并且可以在线挖掘。实验证明了它的有效性。
其他文献
本文的客户端是指三层架构中(表现层、业务层、数据层)的表现层.这一层又分Web和Gui两种方式,也即传统的Browser和Client方式.Web方式的客户端仅安装浏览器即可,而Gui方式须
此研究课题的目的是为了在嵌入式领域做一些理论上的探索和实际应用.整个课题基于源代码公开的嵌入式实时操作系统μC/os-Ⅱ.在分析了μC/os-Ⅱ以后,作者结合当今嵌入式系统
制造工艺的持续发展,为芯片提供了指数级增长的可用晶体管,单个芯片上甚至可以容纳数10亿个晶体管,因而处理器能耗和热密度逼近其物理极限,成为限制处理器性能提升的主要瓶颈。如
在移动通信技术飞速发展的今天.能提供多媒体业务一直是移动通信系统的重要目标之一,而实时多媒体业务是对系统要求最高的一种服务.它涉及到移动通信系统的方方面面,对网络以
该文阐述了软件复用在产品系列化过程中的作用和实现,具体介绍了软件复用在网站建设中的意义与实现方案:采用InQuality框架,从网站体系结构,界面,函数,代码,迭代渐进过程和业
XML正在成为在WorldWideWeb上表示和交换数据标准。XML最初的目的是为了增强对在Internet上传递的文档的解释和操作的远程应用能力。从数据库的观点来看,XML文档中包含大量的
"新疆油田公司网络安全机制的研究与建立"主要是从新疆油田公司网络的实际应用出发,根据建立的风险评估的模型,通过对公司下属十几个单位信息应用情况的调研情况进行风险分析
通过对BOSS系统计费、结算、帐务处理子系统整体功能分析,得出各个环节数据处理独立的,并发的线性顺序工作流表示.在基本遵照工作流概念的基础上,作业调度系统的多个工作流引
该文先简述了GIS技术的概念和发展趋势,并结合计算机软件技术的发展潮流,探讨了组件技术在GIS系统中的应用,并对ESRI ArcGIS产品中的组件技术进行了分析,探讨了ESRI ArcGIS在
本文首先通过分析和比较,说明采用Lotus Domino群件系统作为办公自动化系统开发平台的可靠性和优越性,以及开发Domino应用程序的设计方式和管理理念,并在此基础上详细地论述