论文部分内容阅读
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。通过文本自动分类技术的使用,可以使网页自动的按照类别的方式进行组织和管理,满足人们方便快捷的信息处理需求,准确定位所需信息资源。同时,文本分类技术作为信息过滤、信息检索、搜索引擎、数字化图书馆等领域的技术基础,有着广泛的应用前景,可产生巨大的社会效益和经济效益。文本分类问题是一个复杂的过程,包括文本预处理、文本表示、分类算法、性能评估等主要步骤,其中文本表示是系统的基石,分类算法的设计是系统的核心和实现手段。本文主要从文本表示及分类算法两个角度展开了深入的研究,首先对文本分类的基本概念和知识进行了归纳,分析了目前最为流行的向量空间模型的表示效力以及它对于分类效果的影响因素。在此基础上,提出利用自然语言技术改进原有的向量空间表示模型,并提出与之相适应的文本分类算法,主要内容概括如下:(1)针对词作为文本特征存在着表达能力有限的问题,本文围绕句子级别特征之间的顺序和共现关系,引入特征关联图,提出了句子级关联特征的构造方法,并用于改进朴素贝叶斯分类器。实验表明此方法具有更高的分类性能。(2)特征降维是文本表示中的一个重要的研究方向,也是本文研究的一个主要内容。本文依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强。在实验研究和分析的基础上,提出两步式特征选择的文本分类方法。实验结果表明了该方法在文本分类领域具有一定的可行性。(3)由于在降维、提高算法可用性、多样性及性能等方面具有很好的效果,基于特征子集的分类器集成方法成为了新的研究热点。在充分考虑词性的降维和消歧能力基础上,提出利用词性构造不同特征子集的方法,弥补了原有向量空间模型单靠词形的缺陷,从而提出了基于词性特征子集的分类器集成算法—POSAdaBoost,并同随机子空间集成分类算法的结果作了比较分析。