论文部分内容阅读
近年来,随着网络技术的迅猛发展和传播方式的逐渐完善,网络应用不断丰富,网络购物、网上预订的使用率持续上升。由此,消费者对网购商品作出的评价越来越多,也使得网页评论中包含情感信息的不断增加。一方面,这些信息不仅帮助供应商及时地了解客户对商品的认知感,也为产品或服务的改进提供了支持;另一方面,越来越多的消费者在购买商品时会事先查阅这些评论,而评论中包含的情感信息在很大程度上决定着顾客的购买意向,了解这些情感信息对于供应商和消费者都显得越来越重要。但是,由于网络中所包含的信息量巨大,消费者或供应商要阅读所有的评论,并进行决策将会遇到很大的困难。因此,如何从这些评论中挖掘有用的情感信息,将成为目前一个亟待解决的问题。情感挖掘可以帮助我们挖掘潜在的观点和情感信息,目前的情感挖掘研究主要从词语、句子和文档、特征级别进行挖掘,将挖掘深入到特征级别可以获得更多评论中关于商品或服务的细节的情感信息。然而,目前关于特征级别的情感挖掘研究还比较少,而且缺少情感挖掘的语料资源的支持。本文主要从领域特征集合的构建以及基于多特征融合的情感分类方面开展研究。在领域特征的构造方面,本文首先对先前的方法进行了改进,主要通过设计二级特征、构造模式和词汇集合、自动抽取几个步骤从未标注的语料中抽取领域特征和极性词,构成句法规则集合。在情感分类的研究过程中,本文采用了机器学习方法与语义倾向分析方法相融合的技术手段。首先使用HowNet计算情感特征,从文本中抽取情感特征,再将情感特征与机器学习方法中的无内容特征和领域特征进行融合,形成了3个新的特征集合;然后对其中的两个特征进行特征提取,缩减特征规模;继而,获得了2个新的特征集合;最后,将所有特征集合结合支持向量机进行情感分类实验。本文进行了两组实验,首先对酒店领域的评论进行了抽取领域特征的实验分析,结果显示,所使用的方法在抽取极性词较子特征能够获得更高的正确率;接着,另一组实验通过采集关于多种产品的中文评论,并构造不同特征集合,以无内容特征作为基准进行情感分类实验。实验结果显示,通过加入情感特征、多种类型特征的融合可以提高分类的效果,而进行特征提取能够进一步提高分类效果。