论文部分内容阅读
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此.为了有效地控制和检索文本信息,文本自动分类技术的研究就显得很重要.该文在调研了国内外相关的自动分类技术之后,选取了支持向量机作为技术切入点,实现了一个基于支持向量机的中文文本自动分类系统,并完成了相关的实验.该文以文本自动分类的基本过程为主线,逐步研究和实现了这一过程中的文本特征提取、机器学习以及文本分类等相关关键技术.在特征提取部分,为了使特征向量的维数尽可能地小,同时又不影响特征向量对原文的表示含义,结合了基于文档频率DF、基于x<2>分布CHI、基于信息增益IG以及基于互信息MI等几种不同的特征提取方法,通过实验结果的比较,证明在我们的系统中基于DF的特征提取方法要优于其他方法.此外还实现了两种TFIDF型权重计算方法.为了得到性能好的分类模型,在利用支持向量机SVM进行机器学习的过程中,该文实现了两种不同的SVM学习算法,即固定样本集算法和顺次最小优化算法SMO,并通过实验比较了两种算法的性能.此外该文还针对其中的SMO算法可能出现的一些问题提出了两种改进意见,从实验结果中可以看出这两种改进后算法的优越性.最后,对于多类分类问题,该文采用了将多类问题转化为多个两类问题的方法来解决,实验证明这种方法取得较高的查全率和查准率.在实验过程中,该文采用了从网络上搜集的中文语料库.在训练过程中,采用了环境、计算机、交通、教育、军事、体育、经济、医药、艺术、政治等10个类别的1500篇文本,为了测试分类器的性能,选用了10个不同类别的大约400篇文本,测试结果表明该系统的查准率达到88﹪左右,召回率达到84﹪左右.总之,该文在对各种算法的研究和改进的基础之上,在MicrosoftWindows 2000的Visual C++6.0平台上实现了一个基于SVM的中文文本自动分类系统,在对真实文本库的测试实验中,该系统达到较理想的效果.