基于多特征联合学习的文本要素抽取与关联方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lincl008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展,电子文档数据正呈现出爆炸式的增长,而信息格式的异构性和信息之间较少的关联描述,使得人们淹没在浩如烟海的信息中难以直接获得有价值的信息。文本要素抽取与关联旨在从非结构化的自然语言文本中抽取出结构化的信息,其中文本要素主要包括人名、地名、组织名、观点词、事件触发词等,而文本要素关联则用来获取这些要素之间存在的关系模式或者关联强度。文本要素抽取与关联使人们从繁重、枯燥的信息整理、归档、检索与使用中解放出来,极大地提高了人们在信息化时代知识获取的效率。  文本要素抽取与关联方法的研究热点之一是多特征联合学习方法。传统方法往往将一个复杂任务分解成多个子任务,并用独立的特征集分别训练这些子任务,而多特征联合学习方法旨在将一个复杂任务中所有的特征融入到一个框架中,联合学习一个统一的特征向量表征方式,从而有效地促进了特征之间的共享,减少多特征多任务下的层叠错误问题。本文针对观点词抽取、事件触发词抽取以及文本要素关联等应用,通过分析现有方法存在的问题,提出相应的解决方法。  本文的主要创新点为:  1.提出了一种基于马尔科夫逻辑网的观点词抽取方法。针对传统观点词抽取方法采用独立的特征集训练主观分类和极性分类两个子任务,并将各个子任务自底而上串联起来容易引起层叠错误的问题,该方法利用马尔科夫逻辑联合模型中自顶向下的全局特征,使各个局部特征融入到统一的框架中进行联合学习,从而降低了传统两步策略带来的层叠错误问题;针对马尔科夫逻辑中全局特征较少的情况,提出了一种新的语义相似特征,其基本思想是语义相似的观点词很有可能表达相似的感情色彩,这种全局特征可以促使各个观点词的分类结果相互指导,大大提高了该方法的联合学习能力。在子句级情感分析数据集中,该方法相对传统的两步策略提高了7.26%的正确率,同时语义相似特征的引入则使该方法的正确率提高了4.86%,这充分表明该方法能够有效的减少层叠错误问题给系统带来的影响。  2.提出了一种基于Event-LDA模型的事件触发词抽取方法。针对传统的事件触发词抽取方法依赖标注良好的数据集,且仅能识别预先定义好的事件类型,同时将事件触发词检测和分类串联起来容易引起层叠错误的问题,该方法首先利用Event-LDA直接对所有候选词进行建模,无需事先设定事件类型,而是从大规模的未标注数据中自动地学习多维主题特征,然后利用统计尾置信度测试方法捕获高概率的主题值,从而检测出真正的事件触发词。在大规模未标注的新闻语料中,该方法能够准确地学习事件触发词在主题上的分布情况,并在检测结果中取得了与监督学习方法相接近的约87%的准确率,这充分表明该方法能够非监督地实现事件触发词抽取。  3.提出了一种基于RGloVe(Global Vectors for Relation Representation)模型的文本要素关联方法。针对传统的关联方法依赖人工标注的数据集,且仅能识别预先定义好的关系类型或者谓词词典,同时将要素对检测和关系分类串联起来容易引起层叠错误的问题,该方法首先直接利用大规模未标注数据中所有文本要素之间的全局共现统计来训练关系向量,由于这种全局特征在多维语义向量空间中呈现出线性的子结构,从而能通过计算向量之间的余弦相似度获取文本要素之间的关联强度。该方法的特点是利用真值表示文本要素之间的关联,无需预先定义关系类型或谓词词典,从而适合应用在开放领域的海量文本结构化中。在大规模未标注的新闻语料中,该方法有效建模了文本要素间的语义关系,且与传统的GloVe方法相比,取得了9.59%较低的错误率、11.7%较高的准确率以及拟合较好的平均准确率曲线,这充分表明了该方法能够非监督地实现文本要素的关联。
其他文献
摘要:爱因斯坦认为:“提出一个问题往往比解决一个问题更重要。”从教育学的角度说,提问是发挥学生主体作用的有效途径。从心理学角度说,提问可以激发学生动机、启迪思维。因此,在课堂教学中,教师应引导学生积极参与到教学活动中去,让学生通过积极的智能活动获得知识,培养情感,发展智能,促使他们生动和谐地发展。  关键词:历史教学;有效问题;设计  在实际课堂教学中,往往遇到这种情况:学生提不出问题或者说就是不
金申先生是文博收藏界熟知的著名佛像艺术学者,却很少有人知道,他还是一位绘画、书法和诗词大家。马年新春,本刊特选几幅金先生佳作,供读者欣赏。在将于3月举行的培训班上,学
摘要:口语交际能力教学是中学语文教学重要组成部分。它能够充分体现出学生的主体地位,使师生的课堂沟通交流更加频繁。  关键词:初中语文;口语能力;目的;课外活动;专业素养  一、创设有效情境教学  由于现实条件的限制,在日常生活中,学生交际的对象最主要的是老师、同学和家长。想要让学生真正学会交际,提高口语交际的能力,教师要有效利用好身边的资源,创设特定的生活情境,让学生在特定的生活情境中掌握交际的能
地球同步轨道合成孔径雷达(Geosynchronous Synthetic Aperture Radar,简称GEOSAR)具有波束瞬时覆盖面积大、重访周期短、持续对地观测能力等特点,在灾害监测、资源探测、军事
学位
机场跑道异物(FOD)指的是那些出现在机场跑道上并且会对航空器产生危害的物体。FOD不仅给全球民航业每年带来120亿美金的损失,更会对乘客和机组人员造成人身伤害,是全球机场安全
摘要 :众所周知,兴趣是最好的老师,同时更是促使学生将短暂的好奇心转化为持久学习动力的内在情感源泉。鉴于此,针对高中数学教师如何激发与调动学生的学习兴趣的策略与方式方法的话题展开了探索与分析。  关键词 :高中数学;学习兴趣;教学方法  教学实践表明,当学生对某一科目具有一定的学习兴趣时,他们往往会非常热衷于接触、探索及钻研与这一科目相关的学习内容,从而变被动地学习为积极、主动地学习,即由以往的“
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
正交频分复用(OFDM)技术是一种多载波调制技术,它在频域把信道分成许多正交子信道,各子信道频谱相互重叠,这样不仅减少了子信道间的相互干扰,而且大大提高了频谱利用率。由于
防空导弹指挥控制系统是当前我军信息化建设的重点,而针对指控系统的评估技术研究又是系统开发和研制中的关键技术和难题之一。通过对系统进行科学合理的评估,有助于正确认识系