基于机器学习的文本处理技术研究与应用

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:lantianaaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的高速发展,如何对已有大量自然语言文本按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题。支持向量机是由Vapnik等人提出的一种学习技术[1],是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。以此为背景,本文主要的工作如下:1、本文介绍了中文文本分类预处理过程的各个环节的关键技术,对用于文本分类的主流机器学习算法进行了阐述,重点介绍了支持向量机的相关技术。分析总结了各种主流支持向量机的改进算法后,针对ν-SVM在正负类别训练集数目差距较大的时候产生偏移现象的问题,提出了改进方案,引入一个调控因子,保证在负类数量大于正类数量时,对正类的预测与分类能力与负类相当,从而削弱了因类别数目不同造成的偏移现象。仿真实验表明改进的ν-SVM算法相比原算法对正类的预测准确率有所提高。2、本文对支持向量机多类分类算法进行了深入研究,重点讨论了二叉树多分类支持向量机的树结构生成策略。本文同时考虑类别间的中心距离和类别的离散程度,提出一种基于二叉决策树的多类支持向量机改进算法。针对新闻文本数据进行多分类实验,与传统一对多、一对一等算法对比,实验结果在总体上优于传统方法,并且在训练时间和测试时间上有显著提高。
其他文献
目的:探讨渐进式功能锻炼对老年髋部骨折患者术后康复的促进作用。方法:2016年12月-2019年1月收治老年髋部骨折患者156例,随机分为两组,各78例。对照组给予一般术后功能锻炼
社区医院药品管理起到了窗口作用,主要的服务对象是社区居民,不仅销售非处方药品,还为前来诊治的患者提供药物。但是,当前社区医院药品管理中,依然存在一些问题,为实现药品管
<正>中华民族伟大复兴是21世纪具有特别重大历史意义的事件,中国优秀传统文化的发扬光大也面临前所未有的历史机遇。作为伟大时代赋予中国社会科学研究的诸多新课题之一,中国
曾经冲刺创业板IPO失败的“兰花第一股”连城兰花,终于以“嫁入”上市公司的方式为其内部众多PE留下了一条生路。$$  9月9日,福建金森(002679.SZ)发布公告称,公司拟以8.5亿元的
报纸
石川淳是无赖派的代表作家,其作品《紫苑物语》曾获得艺术选奖文部大臣奖,相关评价甚高,被称为石川淳战后最佳小说。但由于是抽象小说,难以理解,相关研究相对较少,且大多将焦点放在
关于仿古建筑目前也在不断发展,许多学校在建设过程中也会考虑仿古风格建筑比如说中国美术学院在建筑风格上就更倾向于仿古建筑风格。本篇文章主要根据校园仿古风格建筑关于
目的探讨开展外固定支架结合克氏针治疗老年桡骨远端骨折的临床效果。方法回顾性分析外固定支架结合克氏针治疗桡骨远端骨折的82例患者的临床资料。结果所有患者均随访12~18
自Hambrick和Mason(1984)提出高层梯队理论后,国外学术界兴起了研究公司高管团队人口统计特征与企业绩效关系的热潮。目前我国正处于经济转型时期,而民营企业则在整个经济体