基于支持向量机的文本分类技术研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:oracle_1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此.为了有效地控制和检索文本信息,文本自动分类技术的研究就显得很重要.该文在调研了国内外相关的自动分类技术之后,选取了支持向量机作为技术切入点,实现了一个基于支持向量机的中文文本自动分类系统,并完成了相关的实验.该文以文本自动分类的基本过程为主线,逐步研究和实现了这一过程中的文本特征提取、机器学习以及文本分类等相关关键技术.在特征提取部分,为了使特征向量的维数尽可能地小,同时又不影响特征向量对原文的表示含义,结合了基于文档频率DF、基于x<2>分布CHI、基于信息增益IG以及基于互信息MI等几种不同的特征提取方法,通过实验结果的比较,证明在我们的系统中基于DF的特征提取方法要优于其他方法.此外还实现了两种TFIDF型权重计算方法.为了得到性能好的分类模型,在利用支持向量机SVM进行机器学习的过程中,该文实现了两种不同的SVM学习算法,即固定样本集算法和顺次最小优化算法SMO,并通过实验比较了两种算法的性能.此外该文还针对其中的SMO算法可能出现的一些问题提出了两种改进意见,从实验结果中可以看出这两种改进后算法的优越性.最后,对于多类分类问题,该文采用了将多类问题转化为多个两类问题的方法来解决,实验证明这种方法取得较高的查全率和查准率.在实验过程中,该文采用了从网络上搜集的中文语料库.在训练过程中,采用了环境、计算机、交通、教育、军事、体育、经济、医药、艺术、政治等10个类别的1500篇文本,为了测试分类器的性能,选用了10个不同类别的大约400篇文本,测试结果表明该系统的查准率达到88﹪左右,召回率达到84﹪左右.总之,该文在对各种算法的研究和改进的基础之上,在MicrosoftWindows 2000的Visual C++6.0平台上实现了一个基于SVM的中文文本自动分类系统,在对真实文本库的测试实验中,该系统达到较理想的效果.
其他文献
在嵌入式软件开发过程中,调试是一个十分重要的环节,调试器是衡量一个软件开发环境优劣的重要因素.国内在嵌入式软件调试技术方面的研究较少,嵌入式调试产品一般都是国外提供
  本文对现有织物CAD系统的组织设计、纱线设计和织物外观模拟等功能进行了深入研究,提出了新的数学模型和研究方法。  在组织设计中,采用织物组织图像模式识别的方法,快速
针对传统软件开发方法与现有的软件体系结构研究的不足,论文首先对基于体系结构的软件开发的相关理论进行了研究.其次,论文研究了三维体系结构框架理论,探讨了在基于体系结构
物联网的快速发展和人机物互联的逐渐普及,使大规模的数据采集和融合分析成为可能。尤其是在公共安全监管领域,利用海量数据进行智能分析和决策是促进经济发展和保障区域社会稳
双眼皮手术是整形美容手术中出现频率最高的一类手术,尤其在亚洲人群中广受欢迎。由于手术的不可逆性,如果能预先看到术后效果,无论对客户还是对医生都是福音。手术模拟系统以及
本文从图像的压缩标准出发,对压缩域图像检索技术进行了较深入的研究.在对基于内容的图像检索技术特别是压缩域图像检索技术进行全面综述的基础上,所做的主要工作有以下几点:
P2P是Peer-to-Peer的缩写,中文可称为对等网,是一种新的分布式计算模式。在这种模式下,服务器与客户机的界限消失了,网络上的所有节点都可以“平等”地共享其他节点的计算资源。
随着Internet技术的飞速发展,人们在网络上实时地获取视频数据已经成为可能,流媒体技术应运而生。由于网络的异构性、传输带宽、传输抖动等问题存在,给视频编码技术和传输技
C/ATLAS是全系统公共/简明测试语言(Common / Abbreviated Test Language for All Systems的缩写,它是一种功能十分强大的全系统标准测试语言,在军事、航空事业中具有广泛的应用
本文首先根据小波分析的方法,对原始信号进行了滤噪和压缩的研究,并对信号重建的方法进行了讨论.针对心电信号中关键-QRS波的识别问题,本文用小波分解的方法进行处理,取得了