基于句法和语义挖掘的Web金融评论情感分析

来源 :江西财经大学 | 被引量 : 14次 | 上传用户:Tongtong07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的兴起,互联网的网络体系由原来的少数资源掌控者控制的自上而下的结构,现已演变为由广大普通用户集体主导的自下而上的结构。同时,随着Internet技术的迅猛发展,网民队伍日益壮大且上网越来越便捷。在当前Web 2.0网络体系下,巨大的网民数量,加上便捷的上网方式和人们愿意分享、信任的态度,使得互联网上涌现出了海量的包括在线商品、新闻时政、社会公众人物和经济动态等在内的各种用户主观评论文本。评论文本情感分析可以广泛地应用于商业智能、社会舆情、经济预测、信息检索和问答系统等各个方面。评论文本情感分析已成为计算语言学、数据挖掘和人工智能等领域的一个研究热点;同时由于其所具有的重大应用价值,业已成为工业界关注的焦点。互联网上海量的用户评论文本中,也包括大量描述金融领域的文本数据,我们称之为Web金融评论。面向Web金融评论的细粒度情感分析,不仅可以为金融机构或投资者提供投资决策服务;还可作为上市企业财务预警的重要指标。目前针对评论文本的情感分析多集中在商品评论领域,针对Web金融评论的情感分析尚处在起步阶段。与商品评论情感分析不同,金融评论情感分析的难点在于:(1)评价对象数目繁多且构成形式更复杂。商品评论中的评价对象一般为名词或名词短语;在金融评论中,评价对象除了名词或名词短语,还可能是主谓短语、动宾短语等从句形式。(2)评价对象频数差别大。商品评论中,评价对象的分布比较均匀;在金融评论中,由于数据源中针对各评价对象的评论数量受国家政策、企业发展等影响较大,因而各评价对象出现的频数差距也很大。(3)情感词的词性更丰富,句法成分相应地也更灵活。在商品评论中,情感词多为形容词。在金融评论中,情感词的词性更为丰富,除了形容词,还有动词、名词,尤为突出的是动词情感词占比高。(4)虚指评价对象更常见。由于金融评论中评价对象的繁多及组成形式复杂,而中文表达要求言简意赅,因此,中文金融评论中习惯于使用缩略、指代等虚指评价对象形式。(5)隐式评价对象更频繁。由于金融评论多长句,而中文表达习惯中长句常出现缺省或隐含等语言特点,故造成了金融评论中存在较多隐式评价对象。(6)奇异评价对象更多。商品评论中的评价对象一般为产品的特征或属性,为无情感极性的名词或名词短语;金融评论中,由于评价对象组成的复杂性,名词短语评论对象中的动词部分或从句评价对象中的谓语部分都可能使得其评价对象带有情感极性。(7)数字百分比表示程度更常见。商品评论中情感词的程度修饰词多为副词。金融评论中除了程度副词外,还常见用数字百分比来表示程度。(8)金融评论中句子的长度更长,句法成份相应地也更复杂。商品评论往往用短句完成商品各个属性的评价。而金融评论的描述相对更专业,多复合句和长句。细粒度的Web金融评论情感分析是一个庞大而复杂的工程,针对Web金融评论的上述特点,本文主要做了以下几个方面的研究:(1)全面分析了影响情感倾向性的9种句法成分及8种依存关系对。根据词性及其在句中充当的句法成分,全面分析了情感词在句中可能充当的9种句法成分;根据24种依存关系与评价对象、情感词的联系,找出了影响句子情感分析的8种依存关系。(2)情感评价单元的抽取及评价对象的扩展。情感评价单元记为<评价对象,情感词>,它是情感词及其所修饰评价对象的组合。情感评价单元的抽取是文本情感分析中的一个原子和重要的任务。本文充分利用金融评论中多动词情感词的特性,从浅层语义及依存句法分析的角度挖掘情感词所对应的评价对象并进行了相应的评价对象扩展。同时文中借助金融词典、财务指标、非财务指标等领域知识和上下文语义对虚指评价对象进行了判别和替换。缺省及隐含评价对象出现的原因不同,基于此找出可能出现隐式评价对象的三种情况下的三种对应隐式评价对象识别办法。(3)基于句法分析的情感极性单元抽取及奇异评价对象的识别。情感极性单元记为<评价对象,N,情感词>,N表示评价对象和情感词的否定修饰个数。评价对象的情感极性除了受情感词的原极性影响,还受否定词的修饰极性和奇异评价对象的动态极性影响。本文根据并列结构和转折句的语法知识,发现奇异评价对象。(4)基于句法分析的金融评论情感计算。评价对象的情感倾向性包括情感极性和情感强度,情感极性的影响因素有情感词,否定修饰和奇异评价对象;情感强度的影响因素有程度副词、否定词及它们与情感词的不同组合方式,分别构建了Web金融评论情感倾向性的不同计算模型。(5)以新浪财经的公司研究为数据源,在大规模的中文金融评论数据集上进行了详细的实验对比分析,实验结果表明了本文提出的评价对象-情感词对抽取、虚指评价对象的发现和替换、隐式评价对象的识别、评价对象的情感极性判定及金融评论的情感计算等方法的有效性。本文的创新工作主要体现在:(1)设计了语义角色标注与依存句法分析相结合的评价对象-情感词对抽取规则,解决了评价对象构成的复杂性问题。(2)提出了基于领域知识和上下文语义知识解决虚指评价对象和隐式评价对象的新思路。基于语义和领域知识对虚指评价对象进行了判别和替换,以明确其实际的指向和含义;基于特殊情感词搭配表、上下文搭配表及频繁搭配表,能有效识别出缺省和隐含评价对象。(3)提出了基于转折句语法分析的奇异评价对象判定方法,有效判定评价对象自身的情感极性。(4)构建了基于词性和依存句法分析的细粒度的Web金融评论情感倾向性计算模型。
其他文献
作为商业建筑的视觉中心和采光、通风的“中转站”,中庭的存在对于商业建筑的空间品质有着很重要的提升作用。同时,商业中庭的走廊空间是消费者们聚集的一个重要场所,走廊空间光环境的品质对于消费者购物体验有着很重要的影响。但现有有关中庭采光、设计研究并未对影响其走廊空间的自然采光因素做全面、系统地分析。基于此,本文首先对厦门地区商业中庭进行详细的调研,剖析影响商业中庭自然采光的各因素;随后通过现场实测、缩尺
我国炼焦煤储存量较少,而弱黏结性煤储存量较多,需要扩大炼焦煤源。由于型焦是以非炼焦煤为主体的煤料生产焦炭,是广泛使用劣质煤炼焦的最有效措施;型焦采用连续生产、设备密
对西双版纳片断热带雨林蝴蝶群落结构和多样性进行了研究。样地内共收集蝴蝶9204号,隶属于10科,62属,84种。主要成分是:粉蝶科(粉蝶属、迁粉蝶属)、凤蝶科(凤蝶属、麝凤蝶属)、蛱蝶科(斐豹蛱蝶属
不等式是高中数学培养学生思维能力的一个重要内容,它可以体现数学思维中的很多方法,特别是不等式的证明及应用几乎涉及到了函数与方程、数列、向量、几何图形等方面。证明不
大功率恒流源的应用越来越广泛,随着现代科技的进步,人们在工业、医疗、军事等各个方面对稳定的恒流源需求量越来越多。但是目前国内对大功率恒流源的研究起步较晚,水平较低,
本文从管理层持股、财务弹性与公司风险承担之间的关系出发,提出对应假设并对这些假设进行实证分析,得出管理层持股比例的上升,会相应地提升公司风险承担的水平;财务弹性较高
目的对早产儿母乳喂养与新生儿坏死性小肠结肠炎的关系进行分析。方法收集中山市博爱医院胎龄≤36周、出生体重≤1800 g、符合入选条件的早产儿138例,根据喂养方式不同分为母
<正>骨质疏松性胸腰椎骨折是老年患者常见疾病,常严重影响老年患者的生活质量,保守治疗主要以卧床为主,这就形成了骨质疏松-骨折-卧床-加重骨质疏松的恶性循环,长期卧床除了
当前学术界对思想政治教育有效性问题的研究虽取得了不少可喜成果 ,但就整体而言 ,仍有相对经验化、局部化、零碎化之憾。这一问题的研究要想得到全面深化 ,必须设定严整、科