基于概念漂移的流数据异常检测平台研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cq2427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传感器技术、互联网技术的发展,以及IPV6的推行,物联网将会把互联网技术推进一个新的时代。在万物互联的世界中,用户将对数据的收集和共享提出更多需求,以至于数据量的极速增长。与传统的批处理数据相比,流数据作为一种新的数据形式,主要具有以下三个特征:一是对数据处理具有较强的实时性要求;二是数据分布可能随时间不断变化;三是数据规模极其庞大。如金融股票、网络流量监控、用户购物浏览信息、无线传感器网络等领域,数据均是以流的形式存在的。由于在实际场景中流数据的广泛应用,针对流数据可靠性的相关研究迅速得到人们的重视。而异常检测作为可靠性分析的重要组成部分,也成为了流式数据的研究热点之一。异常检测拥有广泛的应用场景,例如入侵检测、日志分析、复杂系统故障检测和智能家居报警等。流数据的异常检测与传统数据异常检测存在较大的区别,其中最主要的影响因素是流数据具有概念漂移的特性。概念漂移即数据分布会随着时间的推移不断变化。在传统的异常检测算法一般假设数据分布是稳定不变的,因此若将传统异常检测算法直接应用于流数据,则无法识别并处理概念漂移,从而使得检测性能不断恶化。本文将针对存在概念漂移的数据流,研究流数据的异常检测算法,并在Storm平台上进行实现。本文主要研究内容包含以下三个部分:(1)基于概念漂移的异常检测算法研究该部分研究结合聚类、马尔可夫模型和窗口理论,针对现有的流数据异常检测算法存在的新概念检测的滞后性问题进行优化。(2)基于上下文信息的数据补全算法研究该部分解决的问题主要包括两类:一是在概念漂移的状态下对数据进行分类;二是在数据属性缺失过多无法分类时,结合上下文信息对其进行分类。(3)Storm分布式实时异常检测平台的实现结合1和2中的理论研究,在Storm平台上部署实时异常检测算法。本文实验结果表明,改进后的异常检测算法聚类效果更稳定,获取新概念的能力更强。参考上下文信息的数据补全算法解决了原有的分类特征缺失过多而无法分类的问题。
其他文献
传统的课堂教学PPP模式已被证明不是外语教学的理想模式,因为外语教学主要不是教给学生有关语言的知识,而是要培养学习者一种使用语言的能力。这种能力需要学习者在语言使用
“三农问题”一直是党和国家领导集体高度重视的问题,2005年年底全国人大常委会议通过了取消农业税的重大议案是国家解决“三农问题”的一个重大举措。“农村教育”同样是“
针对现行教材中有毒气体制备及其性质检验实验的不足,制作了适用于多种有毒气体实验的教具,使得实验变得更加安全、环保。
党内法规既有法律的一些特征,又有政策的一些特征,是具有法律与政策二重属性的规范性文件。基于它的法律特征,在广义的"法"与其它社会现象的对立中,党内法规可以纳入"法"的范
<正>手部烧伤后瘢痕挛缩引起手指屈曲畸形和先天性手指屈曲畸形是整形外科的常见疾病。虽然通过长期功能锻炼仍然无法恢复外形及功能的中、重度手指畸形患者,在手术过程中往
"三农问题"一直是党和国家领导集体高度重视的问题,2005年年底全国人大常委会议通过了取消农业税的重大议案是国家解决"三农问题"的一个重大举措。"农村教育"同样是"三农问题
日语流行语是适应时代的发展要求,在一定时期内被人们喜爱并经常使用的语言。它们构词灵活多变,分布在各个领域,具有言简意赅、新奇时尚等特征。虽然许多流行语生命短暂,但它
结合目前英语课堂较多采用多媒体组织教学的现状,讨论了MCALL(多媒体计算机辅助教学)的性质,提出多媒体辅助教学不是一种教学方法,而是一种教学模式。教师在多媒体课堂上的角
目的:作为分子伴侣的GRP78,拥有广泛的生理功能。经过文献及课题组前期工作,表明其可以参与调控HBV病毒生命周期某个或多个环节,并初步验证了GRP78可以与HBV PreS1相互作用。
用添加质量分数0.00(对照组)、0.10%、0.30%、0.50%和0.70%壳寡糖的饲料饲喂初始体重(3.81&#177;0.23)g的吉富罗非鱼幼鱼(Oreochromis niloticus)10周,研究不同浓度壳寡糖的添加对