论文部分内容阅读
随着Internet与Intranet的迅猛发展,电子文本的信息量呈指数增长,人们越来越渴望拥有能帮助其查找、过滤以及管理如此海量信息的工具,文本自动分类就是这样的工具之一。利用文本自动分类,文本信息可以自动地被分配到一个或多个已经定义好的类别中,这在很大程度上就解决了信息杂乱的问题,方便了用户快速、准确、全面地查找信息。而且作为信息过滤、信息检索、搜索引擎、数字化图书馆等领域的技术基础,文本自动分类有着广泛的应用前景。
本文对文本自动分类中的几项关键技术,如文本预处理、文本表示模型、特征选择、分类算法等进行了研究。从提高系统分类性能的角度出发,提出了几种有效的解决方法和改进技术。本文的主要研究内容和创新工作包括以下几点:
(1)特征选择方法
特征选择就是在不降低分类性能的前提下,提取能够区分不同类别的特征子集合,从而达到删除冗余特征项,缩减文本特征空间维数,减轻分类器学习负担的目的。目前采用较多的特征选择方法有文档频次、信息增益、χ2统计、互信息等,本文从这些方法的基本原理和分类性能入手,着重分析了χ2统计和互信息这两种特征选择方法的优缺点以及它们之间存在的互补性,并在此基础上提出了一种联合的特征选择方法。在中文文本分类实验中,该方法取得了较高的微平均查全率和微平均查准率。
(2)基于广义向量空间模型的文本自动分类的研究
目前,很多分类方法都是基于传统向量空间模型和布尔模型的。然而在这两种文本表示模型中,特征项之间都被假设为是相互独立的,因此在该前提下讨论文本分类的问题显然不能令人满意。在广义向量空间模型中,不仅特征项之间相互独立的假设被剔除了,而且在该模型中文本能更加准确的表示出来,因此本文在文本自动分类中引入了广义向量空间模型,并在此基础上提出了基于广义向量空间模型的KNN和TFIDF文本分类方法。
(3)对广义向量空间模型下布尔交运算的修正
本文在对基于广义向量空间模型的文本自动分类问题进行研究时,发现广义向量空间模型下的布尔运算定律存在着不能满足吸收律、德.摩根法则的缺陷。本文通过对该定律中布尔交运算进行修正弥补了这一缺陷,并从理论的角度证明了改进后的布尔交运算的有效性。