面向网络的用户观点评价报告的自动生成研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:eyeknee1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务越来越受欢迎,网络上的产品评论数量获得快速增长。对于一个流行的产品,评论数量可以达到成千上万条。这使得一个潜在客户很难通过阅读这些评论来制定他们的购买策略。也使得产品的生产企业很难对客户意见进行跟踪和管理。本文将对网络上的用户评论进行挖掘并且生成情感报告。我们只关注用户表达了情感的产品属性,因此本文提到的情感报告不同于传统的自然语言中的文本摘要。为了进行属性的自动抽取和用户观点的挖掘,本文构建了用于产品属性抽取及其用户观点挖掘的资源库,主要包括程度修饰词资源,否定词资源、第一人称代词资源,语气助词资源,感觉词资源,结构词资源和情感词资源。这些资源都是通用的资源,而不是针对具体领域构建的资源,其中在情感词的构建中,提出了基于模板打分的属性摇摆词词对资源构建,有效解决了极性不确定的情感词对情感分析的影响。近年来,研究者提出了许多产品属性抽取的方法,常见的有基于模板的方法和基于统计的方法。本文分析了这两种方法的不足,提出了基于模板自动生成的产品属性的抽取方法。首先使用名词、名词短语和特殊位置的动词、动名词结构获取候选产品属性;继而结合词频信息和停用词表对候选产品属性进行过滤;然后基于自动生成的模板打分进行筛选;最后,我们还对属性进行了分类,把产品属性分为主从属性和单属性。在这一阶段,我们还尝试了新词的发现及新词中属性的识别。本文根据不同类型观点句的特征,采用不同的意见挖掘技术进行属性情感分析。对于普通的评论句,我们根据属性词和情感词的不同而采用不同的策略进行情感倾向性判定。情感分析主要有两种方法:基于情感词标注的情感分析和基于机器学习方法的情感分析,由于基于机器学习的方法需要大量的标注语料,并且领域可移植性比较差,结合基于情感词标注的情感分析,本文提出了基于属性情感词词对的情感分析方法,并提出了基于情感句模板的无情感词评论句的情感分析,在处理含有否定词的评论句时,本文提出了否定转移算法。报告生成阶段,本文提出了基于属性层次的情感分析报告,通过对产品属性以及该属性的子属性的情感极性的总结生成最终的情感报告。
其他文献
近几年,随着社会的发展,公共安全已经越来越受到社会的关注和国家的重视。其中公共安全中一个重要的控制因素就是客流量,利用统计的客流量信息,管理人员可以合理的调度人力、
作为构件的运行支撑平台(Component Operating Platform),应用服务器为网络应用的开发、部署与运行提供了全方位的支持,同时通过凝练和提取一系列公共服务支持复用,降低应用开发
汉语是典型的意合型语言,其研究的困难程度举世公认。相对于现代汉语而言,历时性是古汉语的突出特点。这种历时性加剧了数据不同分布和稀疏问题,使得古汉语信息处理研究进展缓慢
WAP技术的发展使手持设备也可方便地访问网络资源,但单独为这些设备开发适合其访问的网页需要投入多余的资源,开发出的网页也因为设备多样性的问题难以适应所有设备的显示。面
随着Web2.0技术的发展,用户越来越注重在互联网上交流和反馈,于是大量的评论和评价信息随之出现。这些用户生成内容,一方面可以提高读者体验,另一方面又可以用来追踪事件发展
基于内容的音乐情感识别是近年来在音乐信息检索领域新兴起的重要研究课题之一。它的提出是为了解决不断增长的海量数字音乐的管理问题以及人们多样化的音乐检索需求问题。基
在互联网高速发展和个性化的需求日益增长的环境下,当前主流的基于轮廓线的字体描述方法处理以笔画为基本结构的汉字字符时,已经很难满足个性化的需求。因为在这样的描述方法
可靠性是衡量产品发生故障难易程度的—个指标,是产品的一种固有属性。在工程设计和航空航天领域,高可靠性产品才能满足现代技术和生产的需要,才可以获得高的经济效益和拥有
随着Web技术的不断发展,在线考试系统已经被广泛的应用到各个领域之中,对系统的性能和功能都提出了更高的要求。因此,能否提供更高效、更便捷、功能更完善的在线考试系统将是
访问控制是信息安全体系中非常重要的一环,是实现数据保密性和完整性机制的主要手段,访问控制模型及其扩展一直是一个重要的研究课题。随着应用系统复杂度的提高,复杂的应用环境