【摘 要】
:
随着互联网的大规模普及和信息化程度的不断提高,文本信息成几何级数不断增长,人们已经置身于信息的海洋之中。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到
论文部分内容阅读
随着互联网的大规模普及和信息化程度的不断提高,文本信息成几何级数不断增长,人们已经置身于信息的海洋之中。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。自动文本分类在较大程度上解决信息杂乱现象的问题,帮助用户准确地定位所需的信息。它已经成为一项具有较大实用价值的技术受到了广泛的关注,并得到了空前的发展和应用。但是,其在大数据量的处理上遇到了如数据量巨大、特征数量太多、计算时间很长、噪音数据多、计算精度低等问题。理论证明,随着特征的增加,文本处理方法的计算复杂度成指数级增长。所以,特征降维成为了近几年的一个重要的研究课题。
特征选择是一类简单有效的特征降维方法。本文研究了一类基于互信息的特征选择算法,该类算法以信息理论为基础,将特征选择过程看成是目标特征集与类别标签互信息最大化的过程。人们根据对特征间冗余的近似计算方法,提出了四种不同的算法,本文分别给出了算法描述。在这类算法中,除信息增益(IG)外,其它算法中都需要冗余参数。因此,本文提出了搜索冗余参数最佳值的算法。该算法应用T检验比较不同参数值的效果,据此对冗余参数进行修正,循环前两步直至分类效果不再提高。从实验可以看到,该算法得到的最佳参数值能较好地优化分类效果。
虽然基于互信息的特征选择算法有较好的理论基础,却并不适用于大规模的文本分类应用。因此,本文考虑影响特征选择效果的两个重要因素:使用高频词和利用类别信息。对其进行了度量并通过分析它们的关系将其结合为一种新的评价特征优劣的指标。从实验效果看,本文提出的方法比传统的特征选择方法更好,且特征之间的冗余度较小。
其他文献
对铝电解槽进行优化控制的主要目的,是提高电流效率,降低电能消耗。计算机智能控制能够出色的完成这一任务。然而,铝电解工业过程的工艺指标(如电流效率、直流电耗等)往往难
随着互联网的发展,web资源呈现出高速增长,但目前互联网中的信息处理自动化低,信息之间关联性差,即使借助功能强大的搜索引擎,由于冗余信息过多,也无法快速准确地从web资源中
XML是一种可扩展的标记语言,由于其丰富的表达能力和自描述性、灵活性等特点,被广泛应用于Web环境下数据的表示和共享。随着大量数据以XML格式保存,如何高效、系统、科学地管
在环境污染越来越严重的今天,各国都越来越重视包括风能在内的无污染新型能源的利用率,但风电场所处环境恶劣且机组大多安装在高空几十米处,造成风电机组出现故障时不能及时
随着可移动设备技术的发展,越来越多的人在工作和学习中使用可移动设备进行信息的传递和处理。同时也带来了新的安全问题。传统的针对台式机的安全机制已经不能够保证可移动设
膜结构由一些类细胞的膜组成,嵌套地分布在称为“皮肤”的特殊膜里。在由膜划分的区域里存在着多种物质,这些的物质进化包括:一种物质可以转变为其他的一种或多种物质,它们可
互联网的不断发展使计算机系统在人们的日常生活中的地位越来越重要。现有的大部分计算机系统如电子邮件系统、电子商务系统、网上银行系统都需要通过数字身份(如用户名/口令
近年来,随着无线通信技术的发展,移动自组网的研究成为了热点。移动自组网是由多个带有无线收发装置的移动节点组成的一个多跳的、没有中心节点和固定基站的自治网络系统。在
随着经济的快速发展,我国的环境污染问题日益突出,特别是近几年连续的雾霾天气,严重影响着人们的身体健康和生活,引发人们对大气污染问题的高度重视,加强对环境的监测和污染
互联网金融(Internet Finance)是指传统金融机构或者互联网企业利用互联网等信息技术实现资金融通、支付、投资和信息中介等服务的新型金融业务模式。互联网金融是目前金融科技(Fintech)领域的重要形态之一。相比于传统金融,互联网金融具有效率高、成本低、范围广、操作方便等优势。但是,互联网金融的模式也在一定程度上造成了金融市场门槛降低,市场流动性增大,以及监管困难等问题。近些年,互联网金