机器学习算法在文本分类中的应用研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:xiaotre
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机与网络技术的发展带来了文本信息的飞速增长,如何有效利用和管理这些信息已经成为当前迫切需要解决的问题。文本挖掘技术就是在这样的背景下产生的,本文对文本挖掘之核心—文本分类技术做了研究。   向量空间模型是目前文本分类中广泛应用的文本表示模型,基于向量空间模型的文本分类问题受“维度灾难”的制约,因此文本分类中的特征降维是文本分类技术研究的重点。特征降维可以缩短分类算法的学习时间,加快文本处理速度,提升文本分类效果,使训练得到的模型更容易被理解。特征抽取和特征过滤是特征降维中常用的两类方法,特征过滤的时间复杂度比特征抽取小,且不会改变输入特征,因此本文重点研究了特征过滤算法。在介绍了特征频率、文档频率、信息增益、CHI统计量、互信息、交叉熵和文本证据权等常用的文本特征过滤算法后,本文提出一种新的基于泊松分布的特征过滤算法,该算法同样具有较低的时间复杂度。本文在搜狗中文语料集通过K近邻分类器对新算法进行验证实验,通过与五种常用特征过滤算法的比较,发现互信息是几种特征选择算法中表现最差的过滤算法,本文提出的特征过滤算法性能与其他几种特征过滤算法相当,且在查准率上高出其他几种特征过滤方法。   自上世纪九十年代以来,机器学习算法在文本分类中的应用成了研究热点,目前几乎所有重要的机器学习算法都已经应用到了文本分类中来。机器学习算法被分成三种大类:基于统计的方法、基于连接的方法和基于规则的方法。集成学习是机器学习研究的新领域,本文中引入集成学习以提升文本分类的效果。本文的集成学习的基学习器从三大种类中各选取了一种分类器,分别是K近邻学习器、RBF神经网络学习器和决策树学习器。   K近邻学习器是基于统计的学习器,其性能受到近邻选取数目的影响;RBF人工神经网络学习器是一种基于连接方法的学习器,其性能受隐含层神经元数目、中心向量取值、径向基函数选取等因素的影响;决策树方法是一种基于规则的学习方法。本文的实验在搜狗中文语料集研究了不同的参数设置对三种方法分类效果的影响。   本文的集成学习器改进了传统集成学习器的生成结果方法,提出了以验证集分类效果解决传统投票方式中的无法分类问题,从而提高集成学习器的分类效果。本文在搜狗中文语料集上进行了分类算法的验证实验,实验证明改进的集成方法效果超出了传统的集成学习器,及各个基学习器;另外本文还引入了被称作文本分类中“王牌分类器”的支持向量机分类器与各种分类器进行了比较,对比实验证明SVM分类器效果比K近邻学习器、RBF神经网络学习器、决策树学习器以及传统集成学习器好,但本文提出的改进集成学习算法效果超过了SVM分类器。
其他文献
P2P网络在复杂多样、动态多变的环境中,进行信息、数据、服务之间的交互,由于资源的有限性,P2P网络节点之间存在大量的竞争,由于在非完全信息的情况下,P2P网络节点间的交互存在着
随着计算机及网络技术的飞速发展,当今社会正快速向着信息化方向前进,交流与沟通也就无时无处不在。近十年来,国内外一些即时通讯软件也在不断的完善之中。即时通讯(Instant Mes
随着Internet技术的快速发展,网络计算已进入大规模分布式计算时代。这种分布式计算系统具有松耦合、动态性、分散控制等特点,其中一类最具典型代表的就是发布/订阅系统。发布/
在信息社会,海量信息的获取并不意味着海量知识的获取,所以有关有益信息的提取方法显得日益重要。数据挖掘(Data Mining DM)是指从数据库中抽取隐含的、具有潜在使用价值信息的
基于网格计算技术整合和管理网络中分布的各种资源,实现资源共享与协同工作已经成为一个研究热点。中国教育科研网格ChinaGrid项目是构架在CERNET基础之上的整合教育网资源的
在现在日益信息化的社会中,计算机与网络已经渗透到我们日常生活的每一个方面,而嵌入式系统,正是这个渗透过程的主要推动力量。目前嵌入式产品发展的越来越快,从工业控制到军事航
随着信息技术的快速发展,三维地质建模已经成为数学地质、石油勘探、岩土工程、GIS和科学计算可视化领域的研究与应用热点。通过三维地质模型,可以更加灵活自然的表现三维地质
随着移动通信技术的不断发展和智能手机等移动终端设备的飞速更新,音频视频等多媒体业务已经成为终端设备的主要内容之一,各种应用程序的开发逐渐成为新的热点趋势。但是多媒
随着人类科学技术的不断进步与航天事业的迅速发展,深空探测对于航天研究越来越重要,已经成为当今世界各国研究的热点。由于航天技术的发展关系到一个国家的经济发展和国家战略
GPS与惯性导航组合系统(INS)因惯性导航和GPS都为全球、全方位、全时间的导航设备,他们都能提供十分完整的导航数据,且它们的优势互补,能消除各自的缺点。所以GPS/惯性导航的组