基于聚类中心向量的中文文本分类算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:xingjiena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络与信息技术的迅猛发展,网络信息呈现指数级增长,如何从海量数据中快速有效地获得所需信息,已成为一个亟需待解决的问题,而文本分类技术恰好是解决该问题的有效手段之一。在文本分类过程中特征选择与分类算法是提高分类精度与效率的关键技术,因此对特征选择与分类算法的研究具有极其重要的作用与意义。本文对特征选择与分类算法进行深入研究,提出相应的改进方法,以提高文本分类系统的精度与效率。  (1)针对传统及文献[34]改进的互信息选择方法未考虑特征间的类相关冗余性,提出一种基于相关性与冗余性的特征选择方法。该方法结合特征与类别、特征与特征间的相关性、冗余性以及特征分布3个方面进行综合考虑,使用特征分布因子对传统互信息公式进行修正;同时引入相关性与冗余性因子对相关性和冗余性进行权衡,即使用冗余因子对特征间的类无关冗余和类相关冗余进行权衡,使用相关因子对特征与类别间的相关性和特征间的冗余性(类无关冗余和类相关冗余)进行权衡,使得在特征选择过程中每次所选的特征都是当前最优的特征。  (2)针对传统KNN分类算法在处理大数据集时的不足,提出一种基于聚类中心向量的改进KNN算法。该方法主要思想:首先,通过聚类手段进行去噪,即依据文本间相似度大小将同一类别的文本聚类成多个类或簇,在该过程中有些未被归入到任一类簇中的文本即为噪声文本,去除噪声文本对分类精度的影响;其次,依据聚类中心向量思想建立初级分类模型,对样本进行裁剪,去掉哪些待分样本不可能属于的类别的训练样本,即从文本与其类别的中心向量的相似度大于与其他类别中心向量的相似度出发,计算待分文本与聚类之后的每个类别的代表向量(中心向量)之间的相似度,依据预先设定的裁剪阈值,裁剪掉相似度小于该阈值的训练样本。最后,使用传统的KNN分类算法依据裁剪之后的训练样本对待分样本进行分类,以达到在尽量保持KNN分类精确度的前提下降低相似度计算量来提高其分类效率。  (3)将本文提出的特征选择方法与郑等人的方法在复旦大学和Sogou分类语料库上进行对比实验,实验结果表明了本文所提出的文本特征选择方法的分类准确率和召回率都优于文献[34]以及传统的互信息的特征选择方法;实验结果表明本文的分类方法相比传统的KNN分类方法在精确度相当的前提下效率得到了提高。
其他文献
学位
随着数字化的进一步普及以及信息技术的迅速发展和广泛应用,需要传输、存储、处理的数据量急剧增加,对传输带宽、存储容积和处理速度造成巨大压力,因而产生了对数据压缩的强劲客
学位
学位
大数据时代给数据可视化带来新的挑战,这不只体现于数据的海量特征,更体现于数据的复杂性特征,也就是数据的异构性:数据可能带有时空属性和多元属性(多元性),数据的来源和表现形式
学位
学位
随着移动计算技术和无线通讯技术的结合与快速发展,用户使用各种移动通信设备如具有定位功能的车载设备、移动智能终端等通过无线通讯端口实现了对数据库服务器的高效访问。在
学位
随着信息技术的发展,世界范围内的数据量飞速增长,产生了海量的信息。存储这些信息消耗大量的存储资源,增加存储系统构建以及维护的成本,因而给信息存储系统带来了巨大的压力和挑