基于RLS-MARS特征选择的文本分类方法研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:woshixgq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着来自于互联网和企业内部网的信息不断增多,需要一种工具来帮助人们对这些信息资源进行组织、存储和访问。自动文本分类是主要工具之一。文本分类(Text Classification, TC)就是将文档自动指派到预先设定类别的过程。自动文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地得到所需的信息。文本分类的一个主要的问题就是高维的特征空间。这些特征空间是由文档中的词或词组构成的,对于一个中等程度的文档集可能就会形成成百上千万的特征项。对于许多的学习算法来说这么高维的特征项是无法处理的,过大的特征空间会导致“维数灾难”,从而降低分类器的泛化能力,出现“过学习”的现象。因而在不影响特征准确度的情况下减少原来的文本描述空间是很有必要的。特征选择与特征抽取有助于在文本数据集中移除噪音特征,降低维数。特征抽取是将原始特征空间投影到一个低维空间从而创造出新的特征,通常是原始特征的线性或非线性组合。特征抽取有助于解决多义词、同义词问题,但是不能给出新特征的语义解释。特征选择是利用某种评价函数独立地对每个原始特征项打分,按分值从高到低排序,从中选取若干分值最高的特征项。特征选择方法的主要目的是在原始的特征空间中选择一个特征子集,组成一个低维空间来表示原始特征空间。我们将Efron的Least angle regression(最小角度回归)方法和Regularized Least Squares(规则最小二乘)方法相结合,提出了规则最小二乘多角度回归(RLS-MARS)算法。该方法试图在特征空间中,寻找一组方向,使得特征梯度矩阵能沿着这一方向变化,且特征梯度矩阵的模值越来越小,在这一过程中,生成了一系列有序特征。新模型中特征选择方法主要考虑了潜在变量之间(文本词之间)的关系,试图从原始特征集合中选取有效显著特征。这些被选出来的特征之间的相关性很小,且与原始特征同分布。通过RLS-MARS特征选择技术,来提取核心特征是在多维空间中按照特征的特性,设计算法在多角度中计算出相对最小角度,选出梯度下降方向,重新设置梯度向量,从而提取到核心特征。RLS-MARS特征选择技术,主要是研究在低维数情况下特征选择的情况,在多个向量夹角中选出当前情况下的最小角度,从而得到当前梯度向量的梯度下降方向,更新梯度向量值,选出函数拟合变量,从而筛选出合理的特征。我们的模型分别考察了类别不均衡与类别均衡情况下,参数二范数规范和参数二范数忽略,各个数据集中各类的F1评估值情况。在Reuter-21578语料库上的试验表明,RLS-MARS特征选择方法在考虑参数二范数规范的结果要比参数二范数忽略情况下的要好很多。随着维数的增加,RLS-MARS的分类效果在某些类别上要优于卡方统计。
其他文献
建筑业自改革开发以来高速增长,是国民经济的重要支柱产业,但建筑质量、安全事件时而发生,造成了巨大的经济财产损失,甚至人员伤亡。当前中国的建筑质量管理信息化工具匮乏,大多数
近几年对领域语言(DSL)的研究越来越深入,比如基于网络监控的网络监控语言、基于银行出帐系统的银行出帐语言等等。这些语言研究都取得了相当的成果,当某门领域语言被完善地定
随着通信技术,微电子技术和计算技术的发展,无线传感器网络逐渐成为无线网络研究的热点。其在国防、工业、农业,城市管理,医疗、环境等诸多领域具有非常广阔的应用前景。无线传感
学位
单点登录技术是一项非常重要的网络安全技术。由于万维网服务技术的广泛使用,如何实现适用万维网服务特点的单点登录成为一个热点问题。 Kerberos协议为分布式网络环境中传
本论文研究的主要内容是以当前电子邮件服务应用现状和不同用户的需求现状为背景,充分考虑个人用户、企业用户和高校“数字化校园”建设中的校园网环境下使用电子邮件等需求,
无线传感器网络(WSN)是由一组传感器节点以特定方式构成的无线网络,其目的是协作地感知、采集和处理网络覆盖的地理区域中感知对象的信息,并反馈给观察者。无线传感器网络与效
如今,网络通信技术的发展日新月异,新的网络技术例如无线传感器网络、自组织网络、卫星网络等都在不同程度地改变着人们的日常通信方式。卫星网以其重要的战略地位逐渐成为当前
随着互联网的加速扩张,人们的日常生活也越来越离不开网络提供的各种服务,电子邮件(E-mail)即是其中应用最为广泛的一种。作为应用最早的互联网服务之一,电子邮件的出现大大改变
近年来,我国软件产业发展很快,包括软件产品线技术在内的很多先进的开发技术也进入到国内企业。当前已经有不少企事业单位已经成功的把软件产品线技术运用到了其各自不同的领