基于VSM模型和特征选择算法的中文文本自动分类研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:a9249228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类(Text Categorization)是指根据文本的内容,计算机按照某种自动分类算法,把文本判分为预先定义好的类别。文本分类在信息检索,信息过滤,基于个性化的信息服务等方面有着重要用途。随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。实现文本自动分类的基本困难之一是特征项空间的维数过高,数量过大的特征项一方面导致分类算法的代价过高,另一方面导致无法准确地提取文档的类别信息,造成分类效果不佳。因此,需要在不牺牲分类质量的前提下尽可能地降低特征项空间的维数。本文研究如何利用向量空间模型(VSM)和特征选择技术来有效对文本特征向量空间进行降维,减少维数过高对分类结果召回率和准确率的影响。本文针对特征选择算法中tf-idf无法反映词汇的重要程度和特征词的分布情况和互信息没有考虑特征项出现在文本中的次数提出改进方法,同时还引入测量学中的区分度方法来对文本进行特征选择,然后通过SVM分类算法进行分析、统计、学习,最后得到一个自动的文本分类系统。本文是在向量空间模型(VSM)的基础上对中文文本自动分类进行研究,研究的主要内容和创新点如下:1.本文针对向量空间模型(VSM)中的tf-idf存在的不足提出了一种改进方法,传统的tf-idf方法无法反映词汇的重要程度和特征词的分布情况,改进的tf-idf加入了类别中包含词汇的文本数及词汇出现在某一类文本中的次数,改进后的tf-idf可以很明了地区分出特征项的重要程度;2.为了降维特征向量空间,本文针对特征选择方法中互信息方法提出了一种改进方法,改进后的互信息有效的解决了受特征词条的边缘分布的影响导致稀有词的值偏大这个问题,从一定程度上解决了“过度拟合”问题;3.在降低特征向量空间维数方法上,本文引入了测量学上的区分度方法,一种特征选择区分度方法-比例区分度(CPD)算法,CPD算法可以反映了词出现在某个类和其他类中的文本数,通过结合改进的tf-idf权重公式可以选取出更具有代表性的特征项,有利于文本分类;4.本文设计了一个中文文本分类系统,该系统由预处理、特征选择、文本表示、文本分类及评价五个部分组成。预处理是对训练集文本进行分词,过滤停用词、数字等;特征选择部分采用了文档频率、互信息、卡方统计和改进的互信息、比例区分度几种方法进行比较,并结合改进的tf-idf方法计算特征项在文本中的权重;分类部分则是利用SVM分类器进行分类。5.本文所有的实验都是以中文文本分类语料库-TanCorpvl.0为实验数据,利用汉语分词系统ICTCLAS对文本进行分词,性能评估方法使用的是文本分类常用的微平均和宏平均。
其他文献
牛奶是优质蛋白质和钙的良好来源,含有丰富的维生素B族、A、D及其它矿物质,可以提供人体生长发育及细胞修复生长所需营养,长期以来都被人们看作是物美价廉的营养补充品。然而
目的:观察与探讨腹腔灌注重组人白介素-2、干扰素α2b、地塞米松、DDP联合热疗治疗恶性腹腔积液的临床疗效.方法:将我科201 5年5月-12月52例晚期恶性肿瘤伴恶性腹腔积液患者
“牛奶是牛吃的,不是人吃的!想得骨质疏松症吗?请喝牛奶!”我这样讲,会得罪很多人。那么请你们原谅我,我必须按照学者的良心与正直,来跟大家报告。各位做参考,也许不对,但你
关于成语“立竿见影”的含义,词典的解释是:在阳光下把竿子竖起米,立刻就能看见影子,比喻收效迅速.“收效迅速”是“立竿见影”的比喻义,它是在本义的基础上用比喻方式引申出
影片讲述美国加州两位经历中年危机的好友,一个还未从离婚的痛苦中摆脱出来,另一个即将进入婚姻的“坟墓”,两人同行到加州一个著名的葡萄酒产地去旅游,由此展开了一周的情感
目的:评价小针刀综合治疗股骨髋臼撞击症的临床疗效.方法:选择我院近期76例确诊为股骨髋臼撞击症患者,随机分为两组,每组各38例,分别予以C臂定位下行髋部小针刀软组织松解配
目的:探讨环境内分泌干扰物对儿童性早熟的影响.方法:选取2015年02月至2016年02月我院收治50例早熟患儿作为研究对象,对其病历资料进行回顾性分析,并进行探讨.结果:所有早熟
目的:探讨鞘内注射甲基强的松龙治疗多发性硬化的治疗效果.方法:此次研究的对象是选取2012年2月-2014年2月收治的72例多发性硬化患者.将其临床资料进行回顾性分析,并将其随机
目的:探讨健康体检中心温馨服务实施效果研究实施效果.方法:选取2013年5月-2014年5月在医院健康体检中心工作的35名护理人员为对照组,对医院护理人员实施温馨服务培训后,选取