基于三支决策的海量数据分类方法研究及其在视频异常检测中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:luozd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术帮助人们从众多含有噪音的数据里挖掘出对人们存在价值的信息。然而由于数据集具有噪声和冗余性,因此包含的数据信息以及涉及的概念本身存在着不确定性和不精确性。粗糙集理论(Rough Sets)是用来解决不确定性问题的有力工具之一。它的核心问题之一就是对属性约简算法的研究。传统的属性约简算法并不适用于大规模数据处理,因此如何将传统属性约简算法应用于海量数据成为一个值得研究的问题。相比于Hadoop, Spark是性能更加优越的开源云计算框架,目前已经被广泛采纳。本文将基于该平台来处理海量数据。基于决策粗糙集理论通过引入边界域能有效地解决因为信息不足带来的决策错误率,符合人们在实际生活中的决策过程。目前对边界域一般是用户自行处理。当产生较大的边界域时,需要花费用户许多的时间。因此如何尽可能地减少边界域,同时保证算法的分类准确率成为一个值得探讨的问题。与传统属性约简算法一样,三支决策算法也面临在处理海量数据时效率不高的问题,因此如何将三支决策算法应用于海量数据分类也是我们关注的问题。三支决策算法作为代价敏感分类算法可以应用于此类问题中。视频异常检测由于将异常行为分类为正常所花的代价要比将正常行为分类为异常的代价大,同时正常行为与异常行为存在严重不平衡,因此视频异常检测既是一个代价敏感分类问题,又是一个不平衡分类问题,如何将三支决策算法应用于视频异常检测也是一个值得探讨的问题。本文分别针对上述的几个问题进行了深入研究,同时提出了改进方案,主要的工作如下:在三支决策分类预处理方法研究中,提出了基于Spark的快速并行粗糙集属性约简方法,该方法对传统属性约简算法RSAR进行了并行化,并在Spark上给予了实现。通过实验结果表明,并行化之后的算法能有效降低传统算法的运行时间。分析三支决策算法中边界域产生过大的原因,从而基于Tritraining的思想对原三支决策算法TWD进行改进,提出了一个集成分类器Tritraining-TWD。实验结果表明,Tritraining-TWD算法在分类精度和边界域个数要强于TWD算法。同时针对海量数据的问题,我们对三支决策算法TWD和集成分类算法Tritraining-TWD进行了并行化,分别提出PTWD和P-Tritraining-TWD算法。同样两个算法都在Spark上进行了实现。实验结果表明,并行化之后的算法能很好地提高算法的运行效率。采用并行LDA(Latent Dirichlet Allocation)算法对视频数据进行处理,将高维的运动特征转化为低维的语义特征。基于此,我们使用三支决策算法进行分类。我们改进了三支决策算法中的代价关系,使其能更加适用于视频异常检测问题。通过实验表明,与一般分类算法相比,三支决策算法在处理视频异常分类问题上具有比较好的优势,同时在改进后的代价关系的指导下,三支决策算法的的性能得到了一定的提升。
其他文献
在数字图像处理中,模糊图像复原具有重要的研究意义和应用价值。由于模糊图像复原是一个不适定问题,使得从模糊图像中恢复清晰图像非常困难。虽然目前大量算法已被提出,但仍然存
学位
数据包分类是按照一定的规则集和数据包的域信息,找出与数据包匹配的规则条目的过程。数据包分类技术在防火墙、入侵检测、负载均衡系统、VPN等各类网络设备中都得到了广泛的
学位
本文研究了无人机在山地环境下的航迹规划,实现了基于滚动时域控制和混合整数线性规划的航迹规划算法,并对算法进行了优化改进。本项目模块的最终目的是为了能使其用在真正的
学位
机器人导航问题是机器人技术的核心问题,经典群搜索算法如遗传算法、粒子群算法等在解决传统机器人导航问题时都有着不错的表现。本文在群搜索算法的基础上,针对社会机器人导
近年来,互联网应用的飞速发展带动了集群技术的进步。互联网数据中心通常采用横向扩展(Scale-out)的设计,即搭建大规模的集群系统,来应对亿级用户的并发访问、PB级数据的存储与
面向能耗优化的面积、功耗、带宽分配问题是处理器在未来发展中能否解决“暗硅”(Dark Silicon)问题、延续摩尔定律的关键所在。目前大规模并行负载在多核处理器上的并行开销
近年来,云计算作为一种新型的计算模型,正逐渐改变着整个IT领域。越来越多的互联网企业,如Google, Microsoft等开始在世界各地部署大型的数据中心用以支撑其遍布全球的云计算