论文部分内容阅读
数据挖掘技术能够从海量数据中获取有价值的信息。随着全球信息化浪潮的推进,以及互联网、物联网的繁荣发展,人们被浩如烟海的数据包围。面对规模庞大、增速迅猛的数据,若是没有功能强大的数据分析工具,理解并利用这些数据非常困难。因此,在大数据的时代,人们对数据挖掘技术有了更高的要求,在大数据的背景下,数据挖掘中的分类算法仍然面临着两个难题。首先,尽管收集数据变得越来越容易,但是由于人工标记数据耗时费力,因此获得充足的有标记样本去学习高泛化能力的模型变得很困难。其次,将庞大的数据集加载到计算机内存中是不可能的,在传统单机模式下,训练和分类大规模数据的响应时间让人难以接受。本论文针对以上问题,对数据挖掘中的分类算法进行研究。主要完成了以下工作:(1)对半监督分类算法中的Co-training by Committee算法进行研究,提出改进的Co-training by Committee算法,该改进算法具有更高的分类准确率。在算法迭代过程中,为了保证加入到有标记样本集中样本的标记正确性,本论文提出使用训练完成的全部分类器预测无标记样本的类别,并引入数据编辑的方法估计样本的标记置信度。仿真结果表明,与Co-training by Committee算法相比,本论文提出的算法可以将分类准确率平均提高十个百分点左右。(2)设计算法的并行化实现方案,将改进算法部署在Hadoop分布式计算平台上。本论文选择算法中分类器的训练步骤与测试样本的分类步骤做并行化,编写相应的MapReduce程序并与整个迭代框架相结合,实现算法在Hadoop平台的部署,使得算法可以并行地运行在计算机集群上。通过利用较大规模的数据集进行仿真实验,证明本论文提出的算法仍然具有分类准确率的优势。通过在Hadoop平台上对现实生活中的网络流量数据分类,可以验证本文的算法具有实用性。本论文对数据挖掘中分类算法的研究,可以有效利用大量的无标记样本学习泛化性能较好的分类器,同时能够处理大规模的数据,具有有效性和实用性。