论文部分内容阅读
随着信息时代的高速发展,如何对已有大量自然语言文本按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题。支持向量机是由Vapnik等人提出的一种学习技术[1],是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。以此为背景,本文主要的工作如下:1、本文介绍了中文文本分类预处理过程的各个环节的关键技术,对用于文本分类的主流机器学习算法进行了阐述,重点介绍了支持向量机的相关技术。分析总结了各种主流支持向量机的改进算法后,针对ν-SVM在正负类别训练集数目差距较大的时候产生偏移现象的问题,提出了改进方案,引入一个调控因子,保证在负类数量大于正类数量时,对正类的预测与分类能力与负类相当,从而削弱了因类别数目不同造成的偏移现象。仿真实验表明改进的ν-SVM算法相比原算法对正类的预测准确率有所提高。2、本文对支持向量机多类分类算法进行了深入研究,重点讨论了二叉树多分类支持向量机的树结构生成策略。本文同时考虑类别间的中心距离和类别的离散程度,提出一种基于二叉决策树的多类支持向量机改进算法。针对新闻文本数据进行多分类实验,与传统一对多、一对一等算法对比,实验结果在总体上优于传统方法,并且在训练时间和测试时间上有显著提高。