文本分类的特征选择和分类方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:hermes262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上的信息量迅速的增加,如何有效的处理和组织这些文本数据,成为当前研究的重要课题,文本分类是其中的核心课题之一。文本分类的任务是在给定类别标签的前提下,根据文本的内容对文本进行分类。文本分类在自然语言处理与理解、信息检索、内容信息过滤等领域都有着广泛的应用。目前文本分类的模型已经趋近成熟,但并不是说已经到达完美的状态,仍然是有一些问题需要改进。文本分类中关键的两个部分是特征降维和分类方法,特征降维的方法分为特征选择和特征抽取两类。本文从机器学习的角度出发,主要关注点在特征选择方法和分类方法的研究。关于特征选择方法的研究,基于信息论熵性质提出了一种新的特征选择方法。该方法对特征定义两个概念用于特征过滤:样本熵、类别熵。方法结合现有的特征选择方法如互信息等使用,迭代的使用样本熵和类别熵过滤特征项,得到维数更小的特征子集,但在分类应用的时候却能取得更好分类效果。关于分类方法的研究,考虑到SVM良好的性能和集成学习的优点,提出了一种改进的SVM集成方法。该方法基于已有的SVM集成方法,结合文本分类问题的特性,在SVM训练和结果集成上进行了改进。该方法在不同的特征空间上训练多个SVM。对样本分类的时候,根据样本在不同特征空间上可分性选择一个SVM对其进行分类。实验证明,该方法能取得比单个SVM更优的分类结果。
其他文献
随着嵌入式实时应用系统的迅速发展,面对着不断增长的嵌入式软件开发的复杂性压力,如何高效的开发嵌入式应用程序,成为软件工程学迫切需要解决的问题;同时,系统的非功能属性,
由于介词属于虚词,本身并不像实词那样具有具体的词汇意义,但是介词与其介引对象所构成的介词短语在句法分析中却具有重要意义,介词短语结构在汉语文本中是最常见的短语结构,
软件测试是保证软件正确性和提高软件可靠性的最基本和最重要的手段。传统的软件测试方法和技术是基于结构化思想的,较少考虑面向对象技术的特性,模型中的重要概念能够与面向
在计算机视觉和数据库系统两大技术的共同推动下,基于内容的图像检索技术,已经成为一个非常活跃的研究课题。不同于基于文本的传统图像检索技术,基于内容的图像检索技术,是通过提
网络的飞速发展,给人们带来了一个信息的海洋,如何快速从中获取真正重要的信息变得至关重要,搜索引擎便是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在着大
量子安全通信是量子计算与量子信息理论的主要研究方向,它将保密通信体系建立在量子力学理论之上,为信息的安全传输提供了一种新思路和新方法。量子力学在研究微观粒子的状态
起源于办公自动化领域的工作流技术,用计算机程序来管理企业和公司业务流程,以达到提高组织工作效率、节省时间的目的,是计算机应用技术领域的一个热点课题。以开源工作流引
内容摘要:在互联网快速发展的今天,网络上的信息日益膨胀,面对这众多的信息资源,广大网民发现越来越难以获得自己想要的信息。个性化的服务技术就在这种需求背景下诞生了。个
随着计算机网络技术的发展,特别是Internet的广泛应用,现代社会对信息及信息系统的依赖程度日益加深。然而信息技术在带给生活工作便利的同时,也带来了巨大的安全隐患,为了保障信
随着现代计算机科学技术的发展,使用计算机进行图像处理操作变得越来越普遍。计算机图像处理在日常的工作生活当中的某些流程或领域中也扮演着越来越重要的角色。图像匹配问