时间序列中的知识发现

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:liz302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术、因特网、电信技术等信息技术的飞速发展,时间序列数据在现实生产和生活的各个领域中广泛存在(如电信运营、金融市场、工业过程、科学实验、医疗、气象、生物信息等),且存储规模呈现爆炸式增长。如何从海量时间序列数据中发现能够帮助人们决策且以前不知道或不易知道的模式、信息和知识是人们现阶段最急切的需求,也是时间序列数据挖掘研究的核心问题。目前时间序列数据挖掘的研究尚处于起步阶段,很多研究问题还极富挑战性,很多挖掘算法还有待扩充和完善。本文从预测、分类、聚类、搜索和频繁模式发现五个方面对时间序列数据挖掘的研究现状进行了综述,对目前各个研究方向的主要方法进行总结和评价,在频繁模式发现和动态复杂网络社区划分两个方面进行了深入研究。最后在总结全文的基础上,指出有待本文深入研究的问题。本文的创新性工作主要包括以下内容:(1)提出一种频繁模式挖掘算法FPM(Frequent Pattern Mining),该算法充分考虑频繁模式在时间序列中出现次数和分布,能从时间序列数据中挖掘出只在“某个”时间段内频繁出现的“异常”事件序列和在“整个”时间序列中频繁出现的“序列”事件。基于这些不同分布的频繁模式扩展MAMC (Mixed memory Aggregation Markov Chain)模型得到FMAMC (Frequent pattern based Mixed memory Aggregation Markov Chain)模型。FMAMC描述了时间序列中不同类型频繁模式之间的时序关联关系。实验表明,FPM算法时间性能优于PrefixSpan (Prefix-projected Sequential pattern mining)和WinMiner算法,FMAMC模型能够比MAMC模型更准确的预测时间序列中的事件。(2)提出一种基于频繁模式的时间序列分类框架,该框架分为特征提取、特征选择和分类模型训练三个阶段:首先利用本文提出的MNOE (Mining Non-Overlap Episode)算法挖掘时间序列中的非重叠频繁模式,基于非重叠频繁模式提出EGMAMC(Episode Generated Mixed memory Aggregation Markov Chain)模型描述时间序列。然后,根据似然比检验原理,从理论上推导出频繁模式在时间序列中出现的次数和EGMAMC模型是否能显著描述时间序列之间的关系;根据信息增益定义,选择能显著描述时间序列并且信息增益大于给定阈值的频繁模式作为时间序列特征输入传统分类算法训练分类模型。实验表明,选择频繁模式作为特征进行分类的结果优于不选择频繁模式作为特征的结果。(3)提出特征流的概念描述频繁模式实例在时间序列中的分布情况,根据特征流的频谱特征将相应的频繁模式分为三种类别,并分别与时间序列中隐藏的不同类型的事件相对应。提出EDPA (Event Detection by Pattern Aggregation)算法,将紧密关联的频繁模式聚合在一起,每个聚类中的频繁模式构成一个事件。实验表明,选择显著非重叠频繁模式输入EDPA算法进行事件探测的准确率高于选择其它类型频繁模式。(4)提出一系列基于极大团的复杂网络静态和动态社区划分方法:首先提出一种复杂网络中极大团挖掘算法CLIM (CLIque Mining),该算法利用复杂网络中节点聚集系数高的特点设计剪枝策略。实验表明,CLIM算法计算大规模复杂网络和节点聚集系数较高的随机网络中极大团的时间性能明显优于Improved BK (Bron-Kerboscht)算法。基于极大团及其重叠关系定义社区核心和附属节点组成社区。提出一种重叠社区划分算法CDPM (Clique Directed Percolation Method)。CDPM算法采用作者提出的结构轮廓系数SSC(StructureSilhouette Coefficient)衡量复杂网络社区划分质量,SSC越大,社区划分越优,算法最终输出使得SSC最大的社区划分。实验表明,CDPM算法和CPM (Clique Percolation Method)、GN (Given-Newman)算法相比能够更准确的划分社区,其F-measure和VAD (Vertex Average Degree)值更高。同时考虑复杂网络链接结构和节点附属属性信息,提出信息图社区划分算法JCCM (Joint Clustering Coefficient Method),首先采用启发式方法计算出由极大团结构重叠而成的社区核心,然后算法采用本文提出的JCC (Joint Clustering Coefficient)系数为目标函数将社区核心和附属节点聚合在一起,采用不同的距离函数度量附属节点到社区核心中不同地位节点间的距离。实验表明,JCCM算法划分信息图中社区的效果优于只考虑网络结构信息或节点属性信息的算法。在静态社区划分算法的基础上,定义相邻时刻静态社区间的演化关系并提出一种新的动态社区划分算法DCI(Dynamic Community Identification)。DCI算法首先利用本文提出的基于最短描述长度原则(MDL:Minimum Description Length)的划分算法划分静态网络社区。然后,将相邻时刻静态社区及其成员间的重叠关系抽象为一个二分图,将动态社区演化问题抽象为二分图划分问题。提出一种基于MDL的算法划分二分图。实验证明,DCI算法能够比GS (GraphScope)、GC (GroupColoring)算法更加准确的划分出动态网络中的动态社区,并且具有较好的时间性能。(5)将信息在社会网络中的传播过程抽象为节点按一定转移概率依次出现的半马氏过程。提出“空状态”的概念扩展多维半马氏过程,在此基础上提出社会网络信息流模型。社会网络中的成员和模型状态空间中的状态一一对应,社会成员间信息交互的概率即模型中状态间的转移概率,转移概率的大小由社会成员自身特性和所属的社会网络子结构所决定。提出基于社会网络结构的回报函数,并构造有偿半马氏模型计算用户价值。在信息流模型和有偿半马氏模型的基础上,综合考虑社会网络和用户自身偏好对资源选择的影响,提出协同过滤算法SMRR (Semi-Markov and Reward Renewal)。实验表明,SMRR算法的预测准确率优于传统的余弦算法和RIF(Rate Information Flow)算法。
其他文献
针对图像的超分辨率重建问题,提出一种基于稀疏表示和块匹配的重建方法.首先,根据图像退化模型将HR图像退化成LR图像.然后,通过训练获得过完备字典,对图像重建问题进行稀疏表示,并对此进行求解.最后,利用重叠块技术缓解块效应,利用反向投影技术保证全局一致性,最终获得重建的HR图像.另外,将该方法扩展到多帧图像重建中,利用块匹配技术从多帧图像中选择出一个目标图像,以此实现重建.实验结果表明,该方法的重建
利用拓扑度的Mawhin连续性定理,得到了一类带扩散与时滞的食饵捕食系统的正周期解存在的一个充分条件.
化合物在超临界COz中的溶解度数据对选用合适的超临界流体法制备超细药物粒子非常重要,如对利索卡因的微粉化.为此,测定了不同条件下利索卡因在超临界CO2中的溶解度.实验结果表明
以压电电磁复合能量收集器为研究对象,通过对俘能器机械结构设计和工作原理分析,基于Willians-Yates理论和能量法,建立磁力调频复合能量收集器机电耦合数学模型,分析等效刚度
建筑业在国民经济各行业中所占比重仅次于工业和农业,对我国经济的发展有举足轻重的作用。同时作为劳动密集型行业,建筑业提供了大量的就业机会。因此建筑业运行的良好与否对
针对Hive在处理连接查询时所存在的执行时间长和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD-1改进算法.首先,引入预处理技术,在各分布节点对原始数据进行归
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
针对四川农田沟渠农业面源污染突出问题,依据技术体系构建的目标和创新性原则,采用前置预处理-生态治理-植物生态渐修复的集成技术,构建四川典型农田沟渠条件下的生态处理与
应用近极限矩阵,远极限矩阵和密度矩阵,给出三状态可测转移矩阵的一般形式.
采用原子力显微镜(AFM)和扫描电子显微镜(SEM)对二次氧化制备AAO模板的生长过程进行监控,并对其电化学机理进行了研究,提出了自组织氧化铝模板的生长模型.根据该模型分析了影响模板