论文部分内容阅读
随着电子商务越来越受欢迎,网络上的产品评论数量获得快速增长。对于一个流行的产品,评论数量可以达到成千上万条。这使得一个潜在客户很难通过阅读这些评论来制定他们的购买策略。也使得产品的生产企业很难对客户意见进行跟踪和管理。本文将对网络上的用户评论进行挖掘并且生成情感报告。我们只关注用户表达了情感的产品属性,因此本文提到的情感报告不同于传统的自然语言中的文本摘要。为了进行属性的自动抽取和用户观点的挖掘,本文构建了用于产品属性抽取及其用户观点挖掘的资源库,主要包括程度修饰词资源,否定词资源、第一人称代词资源,语气助词资源,感觉词资源,结构词资源和情感词资源。这些资源都是通用的资源,而不是针对具体领域构建的资源,其中在情感词的构建中,提出了基于模板打分的属性摇摆词词对资源构建,有效解决了极性不确定的情感词对情感分析的影响。近年来,研究者提出了许多产品属性抽取的方法,常见的有基于模板的方法和基于统计的方法。本文分析了这两种方法的不足,提出了基于模板自动生成的产品属性的抽取方法。首先使用名词、名词短语和特殊位置的动词、动名词结构获取候选产品属性;继而结合词频信息和停用词表对候选产品属性进行过滤;然后基于自动生成的模板打分进行筛选;最后,我们还对属性进行了分类,把产品属性分为主从属性和单属性。在这一阶段,我们还尝试了新词的发现及新词中属性的识别。本文根据不同类型观点句的特征,采用不同的意见挖掘技术进行属性情感分析。对于普通的评论句,我们根据属性词和情感词的不同而采用不同的策略进行情感倾向性判定。情感分析主要有两种方法:基于情感词标注的情感分析和基于机器学习方法的情感分析,由于基于机器学习的方法需要大量的标注语料,并且领域可移植性比较差,结合基于情感词标注的情感分析,本文提出了基于属性情感词词对的情感分析方法,并提出了基于情感句模板的无情感词评论句的情感分析,在处理含有否定词的评论句时,本文提出了否定转移算法。报告生成阶段,本文提出了基于属性层次的情感分析报告,通过对产品属性以及该属性的子属性的情感极性的总结生成最终的情感报告。