【摘 要】
:
随着通信技术和计算机技术的飞速发展,信息处理已经成为人们获取信息和知识不可或缺的工具。文本分类是信息处理的重要研究方向,它是指在既定的分类体系下,根据文本的内容自
论文部分内容阅读
随着通信技术和计算机技术的飞速发展,信息处理已经成为人们获取信息和知识不可或缺的工具。文本分类是信息处理的重要研究方向,它是指在既定的分类体系下,根据文本的内容自动判别文本类别的过程。粗糙集理论是一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。它在不影响分类精度的前提下通过信息约简,去掉冗余信息,得到显式的文本分类规则,简化信息的表达空间维度。支持向量机是一种基于统计学习理论的方法,它遵照结构最小化原则,在统计样本较少的情况下获得良好的统计规律和泛化能力,为解决小样本学习问题提供一个框架,但是由于庞大的文本特征维数,支持向量机的性能也经常会受到限制。因此本文采用了一种粗糙集和支持向量机相结合的文本分类方法,即利用粗糙集属性约简减少属性数,然后用支持向量机进行训练,再利用训练得出的分类知识对新文本进行分类,通过两者有机的融合增强了它们在文本分类中的实用性。本文沿着“文本分类理论粗糙集理论支持向量机理论基于RS-SVM分类方法的提出将RS-SVM分类方法应用到文本分类中”的思路对文本分类研究内容进行了介绍。在仿真过程中,提出了改进的Johnson贪婪算法,通过查全率和查准率的比较,表明改进的RS-SVM具有较好的分类精度。针对语料库的不同类别样本集的数量差异问题,本文对语料库进行了再分类,使得分类结果更加准确有效。结果表明,基于RS-SVM的方法在中文文本分类上具有一定的优越性。
其他文献
陈鹤琴先生说过:“游戏是幼儿的生命.”角色游戏是幼儿最喜欢的活动之一,也是幼儿期最为典型的游戏形式,角色游戏被幼儿喜爱.中班幼儿在角色游戏中的表现逐渐趋于平行游戏,但
科学思维是物理学科核心素养的重要维度之一,高中物理重视概念的理解,规律、公式的本质及应用,尤其是模型建构的运用,更加强调思维方法技巧等的综合运用.“补偿法”是高中物
国内外学者对企业绩效评价的研究由来已久,提出了很多种企业绩效评价方法,每种方法都有其特点。目前,在可持续发展战略的背景下评价企业绩效,不仅要重视企业的内部效益,更应真实、
当今的高中生,心理承受力差,抗挫折能力弱,容易出一些意想不到的问题.按小组推磨排座位的方法,看似公平,但没有照顾到学生身高的差别和适合每个学生学习的环境,特别是班级纪
改革开放40年间,中国经济在整体上实现了巨大发展,与此同时,这种以要素驱动为主的经济增长方式也导致了资源过度消耗。而2008年的金融危机,愈发暴露出中国粗放型经济增长方式的弊
小学阶段,是学生塑造性格、养成良好行为习惯的关键期.把传统文化渗透到小学语文教学中,可以帮助学生形成正确的思想理念和道德品质.作为语文教师,有义务引导学生展开传统文
提出一种基于光纤陀螺的通用角位移反馈控制传感器,该传感器能够同时实现角位移测量和反馈控制的功能。利用该新型传感器在坦克车长周视镜上进行了稳定控制实验,结果表明系统
幼儿园时期是幼儿形成良好品质的关键时期,我们要给幼儿提供与教育相适应的良好环境.幼儿园的生态自然区是大自然的缩影,是教育活动环境中的重要组成部分.我们要根据幼儿的发
为了充分适应全球信息化、网络化发展的新趋势,世界各国纷纷推动政府再造,提出前瞻性的对策,以应对瞬息万变的剧烈竞争形势的挑战。在经济和信息全球化加快发展的情况下,一个信息
初中语文是此阶段发展素质教育的中心所在,不仅作为学生升学科目,也是理解和学习其他科目的基础.阅读课程对学生而言具有明显提升语文理解力的作用,是学生潜移默化接受知识的