论文部分内容阅读
情感分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。随着互联网上主观性评论文本的增多,情感分析的应用需求也逐渐增多,同时也为自然语言处理的研究提出了新的挑战。近年来,有许多学者针对情感分析的相关任务开展研究,并尝试将其应用到用户评论分析与决策、舆情监控、信息预测等应用中。 情感分析主要包含三大类内容:情感信息抽取、情感信息分类以及情感信息的检索与归纳等。本文的研究重点将放在情感分析的基础任务上,即研究句子级的情感信息抽取及极性识别任务。该任务旨在抽取评论文本中有意义的信息单元(如:评价对象,评价搭配),将无结构化的文本转化为计算机容易识别和处理的结构化数据库,并识别出其中某些信息单元的极性,供情感分析的上层研究和应用任务服务。本文从以下几个方面开展研究工作: 1.基于句法结构泛化的评价对象抽取。一般而言,评价对象的抽取共有两个关键步骤:评价对象候选抽取和评价对象候选筛选。几乎所有前人的研究工作将重心放在第二个步骤上。针对第一个步骤,仅是简单的选取名词短语作为评价对象的候选,其他的方法却鲜有涉猎。本文深入地对评价对象的句法结构进行了剖析,采用句法结构泛化的方法获取评价对象候选,并使用二元分类的方法对评价对象候选进行筛选。 2.基于句法路径的评价搭配抽取。评价搭配指的是评价对象和评价词语间的二元搭配。与评价对象相比,评价搭配为每个评价对象抽取了具体的评价内容,对情感分析的其他上层任务有更大的帮助。本文提出了基于句法路径的方法来抽取评价搭配。该方法自动获取大量的句法路径来描述评价对象及对应的评价词语之间的修饰关系,并采用基于编辑距离的句法路径匹配算法改进了评价搭配抽取的系统性能。 3.基于网络伪语境扩展的评价搭配极性消歧。歧义评价搭配指的是含有上下文极性依赖关系的评价词语的评价搭配。由于歧义评价搭配上下文语境的数量有限且可信度差,本文提出了从网络上扩展并构造大量的伪语境的方法来对歧义评价搭配进行极性消歧。该方法的主要特色体现在以下两个方面:首先,该方法以一种“三组件”框架展现,每个“组件”如同一个插件,可以灵活的更换多种有效的算法;此外,从网络这个丰富的知识库中获取知识有效解决了歧义评价搭配的极性消歧问题。 4.基于图的篇章内外特征相融合的评价句极性识别。评价句极性识别一直是情感分析研究中的热点问题,有很多种方法被相继提出。然而,前人的研究主要关注句子内部的极性特征,对于句子外部的特征关注较少,导致一些隐式评价句的极性难以辨识。本文提出了一种基于图的篇章内外特征相融合的极性识别方法。该方法提出了两种句子外部特征:篇章内部特征和篇章外部特征,打破了特征的单句子和单篇章的局限性;同时使用基于图的传播算法将句子内部特征和这两种句子外部特征进行融合,有效改进了句子内部特征不明确、数量不足等问题。