论文部分内容阅读
文本分类系统的主要任务是在分类体系给定的条件下,根据文本的内容由机器确定该文本所属的类别。文本分类系统被广泛地应用于组织文本、改进检索结果、趋势预测、数字图书馆以及用户兴趣建模。
本文对中文文本分类系统的关键技术进行了研究和探讨,重点放在特征选择算法和分类算法。
1)特征选择算法
目前,较为通用的中文文本表示方法是向量空间模型(VSM),用文本内容中的词元来表示文本自身,即用一个词元集来表示文本。其中,利用特征选择算法选出有代表性的词元对分类结果会产生极大的影响。本文研究并考察了几种常用的特征选择算法:DF、IG、MI和x2统计量。并针对其中MI的不足,提出自己的改进算法,并在试验中验证了该改进算法的有效性。同时,针对传统的组合特征选择算法的不足,提出了新的组合特征选择算法,并证明了新的组合特征选择算法的有效性,试验结果表明它在一定条件下比单一的特征选择算法稍好。
2)分类算法
本文考察了几种常用的分类算法:基于TFIDF的Rocchio算法、朴素贝叶斯算法、KNN算法以及支持向量机(SVM)。本文的重点放在KNN算法上,针对KNN算法不足,有两个改进方向,第一个是训练样本剪裁;第二个是稀释边缘样本作用。本文从第二个方向出发,提出了一种改进的方法,该改进算法原理简单,需要增加的计算量也比较小,最后,在实验中验证了该改进算法的优越性。
在实验和分析部分,本文除了做改进的MI和改进的KNN分别与传统的算法分别对比实验外,还将它们组合起来,分别与传统MI和传统的KNN的组合、改进的MI和传统的KNN组合、传统的MI和改进的KNN组合,这三种组合进行比对。得出实验数据后,对实验数据进行统计分析,用实验结果证明它们组合起来的改进效果。