【摘 要】
:
随着互联网的飞速发展,文本数据每年正以指数级的速度增长,文本分类作为处理文本数据的重要技术之一也变得越来越重要。传统的文本分类方法一般都是基于有监督学习的,为了训
论文部分内容阅读
随着互联网的飞速发展,文本数据每年正以指数级的速度增长,文本分类作为处理文本数据的重要技术之一也变得越来越重要。传统的文本分类方法一般都是基于有监督学习的,为了训练出一个好的分类器需要大量的有标注文本。而在现实中,有标注文本数远小于未标注文本数,如果仅用少量的有标注文本来训练分类器,不但得到的分类器性能较差,还会错失未标注文本中隐含的信息,造成资源的浪费。因此,如何合理有效地运用这部分数据成为重中之重。本文首先对现有用于文本分类的算法进行阐述,指出其优势及缺陷。针对有标注文本不足,以及分类器性能难以有效提升等问题,本文以NB分类器为基础分类器,并结合Bagging算法、EM算法以及选择性集成方法,提出基于Bagging算法的EM选择性集成学习方法,通过设计模拟实验证明了该方法的可行性及有效性。然后将该方法用于处理中文文本分类实际问题。实证结果表明:1.将EM算法应用于文本分类,可以克服有标注训练文本不足的缺陷,提高NB分类器的分类性能,但是相比某些有监督学习算法还是具有一定缺陷,分类器的分类性能略低;2.通过将多个EM基分类器进行比较,选出较好的基分类器,然后进行集成,可以得到一个较强的分类器;3.该方法解决了 Bagging算法中由于存在一些效果较差的基分类器而导致分类器弱化的问题,提升学习器的整体性能。
其他文献
<正>李奇,现任北京一轻食品集团有限公司董事长、总经理。从普通工人到企业老总,一步一个脚印。上世纪70年代入厂的李奇只是一名普通工人,他拜师学艺,勤于动手,善于动脑,短短
泌尿系结石是泌尿系统的常见疾病之一,发病率及复发率普遍较高。双能量CT虚拟平扫技术的应用,有效地提高了泌尿系结石的检测,明显降低了患者辐射剂量。本文就双能量CT虚拟平
<正>传媒发展历史表明,传播技术的每一次革命都引起传媒业在传播观念、传播手段、传播渠道上的深刻变化。纵观新世纪以来传媒发展的进程,我们不难发现,数字技术引领下的新媒
<正>"今天你灌水了吗?"早晨我的QQ刚刚上线,就有几个闪动的"头像"朝我打了这个招呼。我告诉他们"我今天没有心情‘灌水’,倒是‘坐了几个沙发’"。"灌水"原意指向容器里面注
为了探究铌合金精密超精密加工的新途径,采用光整加工技术,对其进行镜面抛光实验。实验结果表明:研抛压力、抛光液的p H值、磨粒大小和研抛垫的厚度是影响表面加工质量的主要
<正>小微企业是市场经济体系中的基本组织,小微企业的特点主要表现在数量大、分布广、类型多、活力强。从国际或者国内经验看,小微企业都是国民经济发展的主要动力和就业的主
采用等体积的CS2/N-甲基-2-吡咯烷酮(NMP)混合溶剂在超声辐射下反复萃取灵武煤,用旋转蒸发器蒸除萃取液中的绝大部分CS2,得到灵武煤浓缩萃取液。用正己烷萃取灵武煤浓缩萃取液,
<正>"激发和保护企业家精神,鼓励更多社会主体投身创新创业,建设知识型、技能型、创新型劳动者大军,弘扬劳模精神和工匠精神。"在习近平总书记所作的十九大报告中,"企业家精
<正>《金融与经济》创刊于1980年1月,是由江西省金融学会主办、中国人民银行南昌中心支行主管的金融学术性月刊,是江西省金融系统唯一一份公开发行的刊物。国际标准刊号:ISSN
目的探索胶质细胞在血脑屏障形成中的重要意义,建立一套可靠、简便的血脑屏障体外研究方法。方法采用内皮细胞系ECV304与星形胶质细胞体外接触共培养的方法,探索星形胶质细胞