论文部分内容阅读
随着Web2.0的兴起,互联网的网络体系由原来的少数资源掌控者控制的自上而下的结构,现已演变为由广大普通用户集体主导的自下而上的结构。同时,随着Internet技术的迅猛发展,网民队伍日益壮大且上网越来越便捷。在当前Web 2.0网络体系下,巨大的网民数量,加上便捷的上网方式和人们愿意分享、信任的态度,使得互联网上涌现出了海量的包括在线商品、新闻时政、社会公众人物和经济动态等在内的各种用户主观评论文本。评论文本情感分析可以广泛地应用于商业智能、社会舆情、经济预测、信息检索和问答系统等各个方面。评论文本情感分析已成为计算语言学、数据挖掘和人工智能等领域的一个研究热点;同时由于其所具有的重大应用价值,业已成为工业界关注的焦点。互联网上海量的用户评论文本中,也包括大量描述金融领域的文本数据,我们称之为Web金融评论。面向Web金融评论的细粒度情感分析,不仅可以为金融机构或投资者提供投资决策服务;还可作为上市企业财务预警的重要指标。目前针对评论文本的情感分析多集中在商品评论领域,针对Web金融评论的情感分析尚处在起步阶段。与商品评论情感分析不同,金融评论情感分析的难点在于:(1)评价对象数目繁多且构成形式更复杂。商品评论中的评价对象一般为名词或名词短语;在金融评论中,评价对象除了名词或名词短语,还可能是主谓短语、动宾短语等从句形式。(2)评价对象频数差别大。商品评论中,评价对象的分布比较均匀;在金融评论中,由于数据源中针对各评价对象的评论数量受国家政策、企业发展等影响较大,因而各评价对象出现的频数差距也很大。(3)情感词的词性更丰富,句法成分相应地也更灵活。在商品评论中,情感词多为形容词。在金融评论中,情感词的词性更为丰富,除了形容词,还有动词、名词,尤为突出的是动词情感词占比高。(4)虚指评价对象更常见。由于金融评论中评价对象的繁多及组成形式复杂,而中文表达要求言简意赅,因此,中文金融评论中习惯于使用缩略、指代等虚指评价对象形式。(5)隐式评价对象更频繁。由于金融评论多长句,而中文表达习惯中长句常出现缺省或隐含等语言特点,故造成了金融评论中存在较多隐式评价对象。(6)奇异评价对象更多。商品评论中的评价对象一般为产品的特征或属性,为无情感极性的名词或名词短语;金融评论中,由于评价对象组成的复杂性,名词短语评论对象中的动词部分或从句评价对象中的谓语部分都可能使得其评价对象带有情感极性。(7)数字百分比表示程度更常见。商品评论中情感词的程度修饰词多为副词。金融评论中除了程度副词外,还常见用数字百分比来表示程度。(8)金融评论中句子的长度更长,句法成份相应地也更复杂。商品评论往往用短句完成商品各个属性的评价。而金融评论的描述相对更专业,多复合句和长句。细粒度的Web金融评论情感分析是一个庞大而复杂的工程,针对Web金融评论的上述特点,本文主要做了以下几个方面的研究:(1)全面分析了影响情感倾向性的9种句法成分及8种依存关系对。根据词性及其在句中充当的句法成分,全面分析了情感词在句中可能充当的9种句法成分;根据24种依存关系与评价对象、情感词的联系,找出了影响句子情感分析的8种依存关系。(2)情感评价单元的抽取及评价对象的扩展。情感评价单元记为<评价对象,情感词>,它是情感词及其所修饰评价对象的组合。情感评价单元的抽取是文本情感分析中的一个原子和重要的任务。本文充分利用金融评论中多动词情感词的特性,从浅层语义及依存句法分析的角度挖掘情感词所对应的评价对象并进行了相应的评价对象扩展。同时文中借助金融词典、财务指标、非财务指标等领域知识和上下文语义对虚指评价对象进行了判别和替换。缺省及隐含评价对象出现的原因不同,基于此找出可能出现隐式评价对象的三种情况下的三种对应隐式评价对象识别办法。(3)基于句法分析的情感极性单元抽取及奇异评价对象的识别。情感极性单元记为<评价对象,N,情感词>,N表示评价对象和情感词的否定修饰个数。评价对象的情感极性除了受情感词的原极性影响,还受否定词的修饰极性和奇异评价对象的动态极性影响。本文根据并列结构和转折句的语法知识,发现奇异评价对象。(4)基于句法分析的金融评论情感计算。评价对象的情感倾向性包括情感极性和情感强度,情感极性的影响因素有情感词,否定修饰和奇异评价对象;情感强度的影响因素有程度副词、否定词及它们与情感词的不同组合方式,分别构建了Web金融评论情感倾向性的不同计算模型。(5)以新浪财经的公司研究为数据源,在大规模的中文金融评论数据集上进行了详细的实验对比分析,实验结果表明了本文提出的评价对象-情感词对抽取、虚指评价对象的发现和替换、隐式评价对象的识别、评价对象的情感极性判定及金融评论的情感计算等方法的有效性。本文的创新工作主要体现在:(1)设计了语义角色标注与依存句法分析相结合的评价对象-情感词对抽取规则,解决了评价对象构成的复杂性问题。(2)提出了基于领域知识和上下文语义知识解决虚指评价对象和隐式评价对象的新思路。基于语义和领域知识对虚指评价对象进行了判别和替换,以明确其实际的指向和含义;基于特殊情感词搭配表、上下文搭配表及频繁搭配表,能有效识别出缺省和隐含评价对象。(3)提出了基于转折句语法分析的奇异评价对象判定方法,有效判定评价对象自身的情感极性。(4)构建了基于词性和依存句法分析的细粒度的Web金融评论情感倾向性计算模型。