事件序列上高效用情节挖掘方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:qq460423406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,产生了海量的数据,这些大量数据的背后隐藏着许多人们所需要的信息和知识,人们迫切需要将这些数据转换成有用的信息和知识。数据挖掘就是随着人们的这一需要应运而生的。虽然对数据挖掘技术的研究已经很成熟,但随着RFID、Sensor等EDGE(Electronic Data Gathering Equipment)的广泛应用,出现了大量的事件流数据。传统的数据挖掘技术往往针对静态数据进行处理,对这种事件流数据不适用。因此对事件流上的数据进行挖掘处理获得了广泛的应用。频繁情节挖掘是事件流挖掘领域中的重要方面。目前对频繁情节挖掘的研究没有考虑事件序列当中各个事件类型的重要性(权重),即认为所有的情节都有相同的权重。但是在现实环境中,事件序列中不同的情节具有不同的权重,不同的情节具有不同的效用值。这样以前的频繁情节的挖掘方法都不能直接用来挖掘高效用的情节。为此,提出了在事件序列上进行高效用情节挖掘的算法。首先,本文提出了一种度量情节效用值的模型,用情节发生的次数乘以情节本身的权重。这样就避免了以前单纯用次数来判断情节是否频繁的缺点,即挖掘出的情节往往不是非常重要的情节。在这样的模型下挖掘出的高实用性、高效用的情节在实际的某些应用当中更有实际意义。其次,以前在没有考虑权重进行频繁情节挖掘时,情节都具有向下封闭的特性,但是现在由于考虑了情节的效用值,原来向下封闭的特性就不再满足,即如果子情节不满足阈值条件,但它的父情节也有可能是满足阈值条件的。所以不满足阈值条件的子情节不能直接删除,这样一来,就增加了算法的搜索空间。为此,本文提出了两种削减策略,能有效地削减算法的搜索空间。最后,本文在此基础上提出了一种基于前缀投影的高效用情节挖掘算法。通过实验可以发现,本文所提出的高效用情节挖掘算法可以有效地挖掘出当前窗口内用户感兴趣的情节。
其他文献
汉语是典型的意合型语言,其研究的困难程度举世公认。相对于现代汉语而言,历时性是古汉语的突出特点。这种历时性加剧了数据不同分布和稀疏问题,使得古汉语信息处理研究进展缓慢
WAP技术的发展使手持设备也可方便地访问网络资源,但单独为这些设备开发适合其访问的网页需要投入多余的资源,开发出的网页也因为设备多样性的问题难以适应所有设备的显示。面
随着Web2.0技术的发展,用户越来越注重在互联网上交流和反馈,于是大量的评论和评价信息随之出现。这些用户生成内容,一方面可以提高读者体验,另一方面又可以用来追踪事件发展
基于内容的音乐情感识别是近年来在音乐信息检索领域新兴起的重要研究课题之一。它的提出是为了解决不断增长的海量数字音乐的管理问题以及人们多样化的音乐检索需求问题。基
在互联网高速发展和个性化的需求日益增长的环境下,当前主流的基于轮廓线的字体描述方法处理以笔画为基本结构的汉字字符时,已经很难满足个性化的需求。因为在这样的描述方法
可靠性是衡量产品发生故障难易程度的—个指标,是产品的一种固有属性。在工程设计和航空航天领域,高可靠性产品才能满足现代技术和生产的需要,才可以获得高的经济效益和拥有
随着Web技术的不断发展,在线考试系统已经被广泛的应用到各个领域之中,对系统的性能和功能都提出了更高的要求。因此,能否提供更高效、更便捷、功能更完善的在线考试系统将是
访问控制是信息安全体系中非常重要的一环,是实现数据保密性和完整性机制的主要手段,访问控制模型及其扩展一直是一个重要的研究课题。随着应用系统复杂度的提高,复杂的应用环境
随着电子商务越来越受欢迎,网络上的产品评论数量获得快速增长。对于一个流行的产品,评论数量可以达到成千上万条。这使得一个潜在客户很难通过阅读这些评论来制定他们的购买
自然语言文本之间的推理和反义关系被视为文本语义关系的核心,在很多自然语言处理任务中(如信息检索,文档摘要,问答系统等)都有着广泛的应用。   自2005年第一届文本推理识别