基于多特征融合的中文情感分类方法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:hzwn001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络技术的迅猛发展和传播方式的逐渐完善,网络应用不断丰富,网络购物、网上预订的使用率持续上升。由此,消费者对网购商品作出的评价越来越多,也使得网页评论中包含情感信息的不断增加。一方面,这些信息不仅帮助供应商及时地了解客户对商品的认知感,也为产品或服务的改进提供了支持;另一方面,越来越多的消费者在购买商品时会事先查阅这些评论,而评论中包含的情感信息在很大程度上决定着顾客的购买意向,了解这些情感信息对于供应商和消费者都显得越来越重要。但是,由于网络中所包含的信息量巨大,消费者或供应商要阅读所有的评论,并进行决策将会遇到很大的困难。因此,如何从这些评论中挖掘有用的情感信息,将成为目前一个亟待解决的问题。情感挖掘可以帮助我们挖掘潜在的观点和情感信息,目前的情感挖掘研究主要从词语、句子和文档、特征级别进行挖掘,将挖掘深入到特征级别可以获得更多评论中关于商品或服务的细节的情感信息。然而,目前关于特征级别的情感挖掘研究还比较少,而且缺少情感挖掘的语料资源的支持。本文主要从领域特征集合的构建以及基于多特征融合的情感分类方面开展研究。在领域特征的构造方面,本文首先对先前的方法进行了改进,主要通过设计二级特征、构造模式和词汇集合、自动抽取几个步骤从未标注的语料中抽取领域特征和极性词,构成句法规则集合。在情感分类的研究过程中,本文采用了机器学习方法与语义倾向分析方法相融合的技术手段。首先使用HowNet计算情感特征,从文本中抽取情感特征,再将情感特征与机器学习方法中的无内容特征和领域特征进行融合,形成了3个新的特征集合;然后对其中的两个特征进行特征提取,缩减特征规模;继而,获得了2个新的特征集合;最后,将所有特征集合结合支持向量机进行情感分类实验。本文进行了两组实验,首先对酒店领域的评论进行了抽取领域特征的实验分析,结果显示,所使用的方法在抽取极性词较子特征能够获得更高的正确率;接着,另一组实验通过采集关于多种产品的中文评论,并构造不同特征集合,以无内容特征作为基准进行情感分类实验。实验结果显示,通过加入情感特征、多种类型特征的融合可以提高分类的效果,而进行特征提取能够进一步提高分类效果。
其他文献
改革开放以来,中国的经济处于举世瞩目的腾飞阶段。云南省的经济也在这一契机下得到迅猛发展。但是云南经济的高速发展能够持续多久、什么因素引领着区域经济的发展、区域经
近年来,中国地方各级政府开展了各种创新活动,实践界与理论界对此高度关注,但政府创新的动因、特征和绩效等问题仍有待进一步研究。本文收集整理了2005年申报第三届"中国地方
本文作者认为,我国企业管理落后,一个重要原因是企业管理研究落后,而企业管理研究落后的重要原因则是企业管理研究方法落后。针对如何建立企业管理研究方法体系,作者论述了四
任何一种先锋艺术都不可能永久屹立在时代的风口浪尖。曾经充满反抗意识、拒绝雷同的舞踏,在山海塾这里,似乎已经有了一定的程式印记……舞台正中央横置着如同日式庭院中石景
晚清时期中国社会在内忧外患的局势下被迫开始了从传统向现代过渡的进程,期间随着西学东渐的兴起,在翻译界掀起了西书译介的高潮,大批的西书被翻译或转译成中文并广泛流传。这些
中国住房由计划配置改为走向市场以来,房地产产业迅速崛起,地产广告的发展在业界也令人瞩目。广告中的景观和文案,呈现于报刊杂志等媒介,其催生的文化想象与感官欲望的软性力
<正>新课程标准在许多地方强调阅读教学必须注重"体验""感悟",也就是说要注重阅读主体的有效生成,而在阅读教学中教师怎样才能较好地引导
对外汉语教学中的量词教学是学生学习时的一大难点,同时也是教师授课时的一大难点。基于这一特点,本文结合量词和中华民族特有的文化思维方式进行分析和说明,再以问卷调查的形式
目的:研究下呼吸道感染患者的抗生素用药情况,为临床抗生素的使用合理性提供理论依据。方法:我院选择2012年8月~2014年8月间诊治的80例下呼吸道感染患者,将其均分为四组,1组
目的:分析肩袖损伤患者采用肩关节镜下治疗的护理措施。方法:回顾性分析我院收治的30例肩袖损伤患者进行肩关节镜下手术治疗及护理的相关资料。结果:本组所有患者均顺利完成