基于三支决策的海量数据分类方法研究及其在视频异常检测中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户：luozd

【摘要】

：

数据挖掘技术帮助人们从众多含有噪音的数据里挖掘出对人们存在价值的信息。然而由于数据集具有噪声和冗余性,因此包含的数据信息以及涉及的概念本身存在着不确定性和不精确

【作者】

：

李萍

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2016年期

【关键词】

：

属性约简三支决策理论视频异常检测并行化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘技术帮助人们从众多含有噪音的数据里挖掘出对人们存在价值的信息。然而由于数据集具有噪声和冗余性,因此包含的数据信息以及涉及的概念本身存在着不确定性和不精确性。粗糙集理论(Rough Sets)是用来解决不确定性问题的有力工具之一。它的核心问题之一就是对属性约简算法的研究。传统的属性约简算法并不适用于大规模数据处理,因此如何将传统属性约简算法应用于海量数据成为一个值得研究的问题。相比于Hadoop, Spark是性能更加优越的开源云计算框架,目前已经被广泛采纳。本文将基于该平台来处理海量数据。基于决策粗糙集理论通过引入边界域能有效地解决因为信息不足带来的决策错误率,符合人们在实际生活中的决策过程。目前对边界域一般是用户自行处理。当产生较大的边界域时,需要花费用户许多的时间。因此如何尽可能地减少边界域,同时保证算法的分类准确率成为一个值得探讨的问题。与传统属性约简算法一样,三支决策算法也面临在处理海量数据时效率不高的问题,因此如何将三支决策算法应用于海量数据分类也是我们关注的问题。三支决策算法作为代价敏感分类算法可以应用于此类问题中。视频异常检测由于将异常行为分类为正常所花的代价要比将正常行为分类为异常的代价大,同时正常行为与异常行为存在严重不平衡,因此视频异常检测既是一个代价敏感分类问题,又是一个不平衡分类问题,如何将三支决策算法应用于视频异常检测也是一个值得探讨的问题。本文分别针对上述的几个问题进行了深入研究,同时提出了改进方案,主要的工作如下：在三支决策分类预处理方法研究中,提出了基于Spark的快速并行粗糙集属性约简方法,该方法对传统属性约简算法RSAR进行了并行化,并在Spark上给予了实现。通过实验结果表明,并行化之后的算法能有效降低传统算法的运行时间。分析三支决策算法中边界域产生过大的原因,从而基于Tritraining的思想对原三支决策算法TWD进行改进,提出了一个集成分类器Tritraining-TWD。实验结果表明,Tritraining-TWD算法在分类精度和边界域个数要强于TWD算法。同时针对海量数据的问题,我们对三支决策算法TWD和集成分类算法Tritraining-TWD进行了并行化,分别提出PTWD和P-Tritraining-TWD算法。同样两个算法都在Spark上进行了实现。实验结果表明,并行化之后的算法能很好地提高算法的运行效率。采用并行LDA(Latent Dirichlet Allocation)算法对视频数据进行处理,将高维的运动特征转化为低维的语义特征。基于此,我们使用三支决策算法进行分类。我们改进了三支决策算法中的代价关系,使其能更加适用于视频异常检测问题。通过实验表明,与一般分类算法相比,三支决策算法在处理视频异常分类问题上具有比较好的优势,同时在改进后的代价关系的指导下,三支决策算法的的性能得到了一定的提升。

其他文献

模糊图像复原若干技术研究

在数字图像处理中，模糊图像复原具有重要的研究意义和应用价值。由于模糊图像复原是一个不适定问题，使得从模糊图像中恢复清晰图像非常困难。虽然目前大量算法已被提出，但仍然存

学位

图像复原区域约束多焦融合模糊图像

分布式文件系统中基于优化MTTR的数据可用性研究

学位

高效数据包分类方法研究

数据包分类是按照一定的规则集和数据包的域信息，找出与数据包匹配的规则条目的过程。数据包分类技术在防火墙、入侵检测、负载均衡系统、VPN等各类网络设备中都得到了广泛的

学位

核处理器数据包分类决策树算法吞吐率

支持确定性多线程的运行时系统

学位

真实DEM地图下一种航迹规划算法的研究和应用

本文研究了无人机在山地环境下的航迹规划,实现了基于滚动时域控制和混合整数线性规划的航迹规划算法,并对算法进行了优化改进。本项目模块的最终目的是为了能使其用在真正的

学位

航迹规划DEM地形建模

LTE基带芯片硬件加速器的低功耗设计

学位

社会群优化算法及其在机器人导航中的应用

机器人导航问题是机器人技术的核心问题,经典群搜索算法如遗传算法、粒子群算法等在解决传统机器人导航问题时都有着不错的表现。本文在群搜索算法的基础上,针对社会机器人导

学位

社会机器人导航社会群优化信息熵社会行为

互联网数据中心资源共享技术研究

近年来，互联网应用的飞速发展带动了集群技术的进步。互联网数据中心通常采用横向扩展(Scale-out)的设计，即搭建大规模的集群系统，来应对亿级用户的并发访问、PB级数据的存储与

学位

互联网数据中心资源共享任务调度策略

面向能耗优化的多核处理器系统资源分配方法

面向能耗优化的面积、功耗、带宽分配问题是处理器在未来发展中能否解决“暗硅”(Dark Silicon)问题、延续摩尔定律的关键所在。目前大规模并行负载在多核处理器上的并行开销

学位

多核处理器资源分配能耗-性能模型硬件优化

数据中心负载均衡和流量控制技术研究

近年来,云计算作为一种新型的计算模型,正逐渐改变着整个IT领域。越来越多的互联网企业,如Google, Microsoft等开始在世界各地部署大型的数据中心用以支撑其遍布全球的云计算

学位

数据中心网络负载均衡流量控制

基于三支决策的海量数据分类方法研究及其在视频异常检测中的应用

其他学术论文