论文部分内容阅读
随着来自于互联网和企业内部网的信息不断增多,需要一种工具来帮助人们对这些信息资源进行组织、存储和访问。自动文本分类是主要工具之一。文本分类(Text Classification, TC)就是将文档自动指派到预先设定类别的过程。自动文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地得到所需的信息。文本分类的一个主要的问题就是高维的特征空间。这些特征空间是由文档中的词或词组构成的,对于一个中等程度的文档集可能就会形成成百上千万的特征项。对于许多的学习算法来说这么高维的特征项是无法处理的,过大的特征空间会导致“维数灾难”,从而降低分类器的泛化能力,出现“过学习”的现象。因而在不影响特征准确度的情况下减少原来的文本描述空间是很有必要的。特征选择与特征抽取有助于在文本数据集中移除噪音特征,降低维数。特征抽取是将原始特征空间投影到一个低维空间从而创造出新的特征,通常是原始特征的线性或非线性组合。特征抽取有助于解决多义词、同义词问题,但是不能给出新特征的语义解释。特征选择是利用某种评价函数独立地对每个原始特征项打分,按分值从高到低排序,从中选取若干分值最高的特征项。特征选择方法的主要目的是在原始的特征空间中选择一个特征子集,组成一个低维空间来表示原始特征空间。我们将Efron的Least angle regression(最小角度回归)方法和Regularized Least Squares(规则最小二乘)方法相结合,提出了规则最小二乘多角度回归(RLS-MARS)算法。该方法试图在特征空间中,寻找一组方向,使得特征梯度矩阵能沿着这一方向变化,且特征梯度矩阵的模值越来越小,在这一过程中,生成了一系列有序特征。新模型中特征选择方法主要考虑了潜在变量之间(文本词之间)的关系,试图从原始特征集合中选取有效显著特征。这些被选出来的特征之间的相关性很小,且与原始特征同分布。通过RLS-MARS特征选择技术,来提取核心特征是在多维空间中按照特征的特性,设计算法在多角度中计算出相对最小角度,选出梯度下降方向,重新设置梯度向量,从而提取到核心特征。RLS-MARS特征选择技术,主要是研究在低维数情况下特征选择的情况,在多个向量夹角中选出当前情况下的最小角度,从而得到当前梯度向量的梯度下降方向,更新梯度向量值,选出函数拟合变量,从而筛选出合理的特征。我们的模型分别考察了类别不均衡与类别均衡情况下,参数二范数规范和参数二范数忽略,各个数据集中各类的F1评估值情况。在Reuter-21578语料库上的试验表明,RLS-MARS特征选择方法在考虑参数二范数规范的结果要比参数二范数忽略情况下的要好很多。随着维数的增加,RLS-MARS的分类效果在某些类别上要优于卡方统计。