论文部分内容阅读
数据挖掘技术帮助人们从众多含有噪音的数据里挖掘出对人们存在价值的信息。然而由于数据集具有噪声和冗余性,因此包含的数据信息以及涉及的概念本身存在着不确定性和不精确性。粗糙集理论(Rough Sets)是用来解决不确定性问题的有力工具之一。它的核心问题之一就是对属性约简算法的研究。传统的属性约简算法并不适用于大规模数据处理,因此如何将传统属性约简算法应用于海量数据成为一个值得研究的问题。相比于Hadoop, Spark是性能更加优越的开源云计算框架,目前已经被广泛采纳。本文将基于该平台来处理海量数据。基于决策粗糙集理论通过引入边界域能有效地解决因为信息不足带来的决策错误率,符合人们在实际生活中的决策过程。目前对边界域一般是用户自行处理。当产生较大的边界域时,需要花费用户许多的时间。因此如何尽可能地减少边界域,同时保证算法的分类准确率成为一个值得探讨的问题。与传统属性约简算法一样,三支决策算法也面临在处理海量数据时效率不高的问题,因此如何将三支决策算法应用于海量数据分类也是我们关注的问题。三支决策算法作为代价敏感分类算法可以应用于此类问题中。视频异常检测由于将异常行为分类为正常所花的代价要比将正常行为分类为异常的代价大,同时正常行为与异常行为存在严重不平衡,因此视频异常检测既是一个代价敏感分类问题,又是一个不平衡分类问题,如何将三支决策算法应用于视频异常检测也是一个值得探讨的问题。本文分别针对上述的几个问题进行了深入研究,同时提出了改进方案,主要的工作如下:在三支决策分类预处理方法研究中,提出了基于Spark的快速并行粗糙集属性约简方法,该方法对传统属性约简算法RSAR进行了并行化,并在Spark上给予了实现。通过实验结果表明,并行化之后的算法能有效降低传统算法的运行时间。分析三支决策算法中边界域产生过大的原因,从而基于Tritraining的思想对原三支决策算法TWD进行改进,提出了一个集成分类器Tritraining-TWD。实验结果表明,Tritraining-TWD算法在分类精度和边界域个数要强于TWD算法。同时针对海量数据的问题,我们对三支决策算法TWD和集成分类算法Tritraining-TWD进行了并行化,分别提出PTWD和P-Tritraining-TWD算法。同样两个算法都在Spark上进行了实现。实验结果表明,并行化之后的算法能很好地提高算法的运行效率。采用并行LDA(Latent Dirichlet Allocation)算法对视频数据进行处理,将高维的运动特征转化为低维的语义特征。基于此,我们使用三支决策算法进行分类。我们改进了三支决策算法中的代价关系,使其能更加适用于视频异常检测问题。通过实验表明,与一般分类算法相比,三支决策算法在处理视频异常分类问题上具有比较好的优势,同时在改进后的代价关系的指导下,三支决策算法的的性能得到了一定的提升。