论文部分内容阅读
计算机与网络技术的发展带来了文本信息的飞速增长,如何有效利用和管理这些信息已经成为当前迫切需要解决的问题。文本挖掘技术就是在这样的背景下产生的,本文对文本挖掘之核心—文本分类技术做了研究。
向量空间模型是目前文本分类中广泛应用的文本表示模型,基于向量空间模型的文本分类问题受“维度灾难”的制约,因此文本分类中的特征降维是文本分类技术研究的重点。特征降维可以缩短分类算法的学习时间,加快文本处理速度,提升文本分类效果,使训练得到的模型更容易被理解。特征抽取和特征过滤是特征降维中常用的两类方法,特征过滤的时间复杂度比特征抽取小,且不会改变输入特征,因此本文重点研究了特征过滤算法。在介绍了特征频率、文档频率、信息增益、CHI统计量、互信息、交叉熵和文本证据权等常用的文本特征过滤算法后,本文提出一种新的基于泊松分布的特征过滤算法,该算法同样具有较低的时间复杂度。本文在搜狗中文语料集通过K近邻分类器对新算法进行验证实验,通过与五种常用特征过滤算法的比较,发现互信息是几种特征选择算法中表现最差的过滤算法,本文提出的特征过滤算法性能与其他几种特征过滤算法相当,且在查准率上高出其他几种特征过滤方法。
自上世纪九十年代以来,机器学习算法在文本分类中的应用成了研究热点,目前几乎所有重要的机器学习算法都已经应用到了文本分类中来。机器学习算法被分成三种大类:基于统计的方法、基于连接的方法和基于规则的方法。集成学习是机器学习研究的新领域,本文中引入集成学习以提升文本分类的效果。本文的集成学习的基学习器从三大种类中各选取了一种分类器,分别是K近邻学习器、RBF神经网络学习器和决策树学习器。
K近邻学习器是基于统计的学习器,其性能受到近邻选取数目的影响;RBF人工神经网络学习器是一种基于连接方法的学习器,其性能受隐含层神经元数目、中心向量取值、径向基函数选取等因素的影响;决策树方法是一种基于规则的学习方法。本文的实验在搜狗中文语料集研究了不同的参数设置对三种方法分类效果的影响。
本文的集成学习器改进了传统集成学习器的生成结果方法,提出了以验证集分类效果解决传统投票方式中的无法分类问题,从而提高集成学习器的分类效果。本文在搜狗中文语料集上进行了分类算法的验证实验,实验证明改进的集成方法效果超出了传统的集成学习器,及各个基学习器;另外本文还引入了被称作文本分类中“王牌分类器”的支持向量机分类器与各种分类器进行了比较,对比实验证明SVM分类器效果比K近邻学习器、RBF神经网络学习器、决策树学习器以及传统集成学习器好,但本文提出的改进集成学习算法效果超过了SVM分类器。