论文部分内容阅读
随着网络与信息技术的迅猛发展,网络信息呈现指数级增长,如何从海量数据中快速有效地获得所需信息,已成为一个亟需待解决的问题,而文本分类技术恰好是解决该问题的有效手段之一。在文本分类过程中特征选择与分类算法是提高分类精度与效率的关键技术,因此对特征选择与分类算法的研究具有极其重要的作用与意义。本文对特征选择与分类算法进行深入研究,提出相应的改进方法,以提高文本分类系统的精度与效率。 (1)针对传统及文献[34]改进的互信息选择方法未考虑特征间的类相关冗余性,提出一种基于相关性与冗余性的特征选择方法。该方法结合特征与类别、特征与特征间的相关性、冗余性以及特征分布3个方面进行综合考虑,使用特征分布因子对传统互信息公式进行修正;同时引入相关性与冗余性因子对相关性和冗余性进行权衡,即使用冗余因子对特征间的类无关冗余和类相关冗余进行权衡,使用相关因子对特征与类别间的相关性和特征间的冗余性(类无关冗余和类相关冗余)进行权衡,使得在特征选择过程中每次所选的特征都是当前最优的特征。 (2)针对传统KNN分类算法在处理大数据集时的不足,提出一种基于聚类中心向量的改进KNN算法。该方法主要思想:首先,通过聚类手段进行去噪,即依据文本间相似度大小将同一类别的文本聚类成多个类或簇,在该过程中有些未被归入到任一类簇中的文本即为噪声文本,去除噪声文本对分类精度的影响;其次,依据聚类中心向量思想建立初级分类模型,对样本进行裁剪,去掉哪些待分样本不可能属于的类别的训练样本,即从文本与其类别的中心向量的相似度大于与其他类别中心向量的相似度出发,计算待分文本与聚类之后的每个类别的代表向量(中心向量)之间的相似度,依据预先设定的裁剪阈值,裁剪掉相似度小于该阈值的训练样本。最后,使用传统的KNN分类算法依据裁剪之后的训练样本对待分样本进行分类,以达到在尽量保持KNN分类精确度的前提下降低相似度计算量来提高其分类效率。 (3)将本文提出的特征选择方法与郑等人的方法在复旦大学和Sogou分类语料库上进行对比实验,实验结果表明了本文所提出的文本特征选择方法的分类准确率和召回率都优于文献[34]以及传统的互信息的特征选择方法;实验结果表明本文的分类方法相比传统的KNN分类方法在精确度相当的前提下效率得到了提高。