基于远程监督和注意力机制的藏文实体关系抽取研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:db0928
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字时代的到来使数据成指数增长,我们可以通过各种应用程序,来获得需要的信息。但是现实生活中的信息大多表示为非结构化的文本形式,难以从海量的文本中高效、快速、准确地提取出有价值的信息,在此背景下,实体关系抽取任务应运而生。实体关系抽取通过自动识别句子中实体之间的关系,从而有效地提取实体间的语义关系,构建结构化的知识库,为问答系统,信息检索以及知识图谱等应用提供了支撑。目前,实体关系抽取在中英文领域发展迅速,然而,对于低资源语言的研究相对较少,如藏文实体关系抽取的研究还处于探索阶段,其中也存在着许多困难和挑战。首先,相比于语料丰富的中英文领域,藏文实体关系训练语料规模较小,语料标注处理比较困难;其次,藏文语料同样存在语义歧义的问题,传统的词向量表示无法区分词汇在不同语境下的含义;最后,基于深度学习的藏文实体关系抽取需要大规模的训练语料,目前在小规模标注语料下难以获得较高的准确率。基于以上问题,本文通过构建一定规模的藏文知识库以及关系抽取语料库,研究了基于远程监督和注意力机制的藏文实体关系抽取,主要工作如下:(1)基于远程监督的藏文实体关系抽取有监督的方法需要大规模、人工标注的数据集,而藏文实体关系抽取训练语料规模较小。因此,本文利用远程监督方法构建藏文实体关系抽取的数据集,通过对齐构建好的知识库与文本,自动生成大规模的数据训练关系抽取模型,预测文本中实体对之间的语义关系。然后,利用分段卷积神经网络,根据两个给定的实体来自动学习相关特征,并引入多示例学习的方法来提高藏文实体关系抽取的准确率。实验结果表明,基于多示例学习的分段卷积神经网络,利用远程监督方法自动标记的数据训练的关系抽取模型,F1值达到32.7%,比基线RNN模型提高了 7.2%。(2)融合动态语义信息的藏文实体关系抽取方法词向量表示是自然语言处理的基础和关键,其质量直接影响到整个系统的性能。而藏文语料同样存在一词多义的问题,为了从大规模语料中学习到丰富的语义知识,本文基于双向长短期记忆神经网络,通过对词进行深层语境化的表示,结合词向量、位置向量和词性向量学到单词的复杂特征以及在不同的语言环境中的变化。实验表明,该方法有效地为不同语言环境下的单词赋予不同的向量表示,而且集成到藏文实体关系抽取模型中,F1值达到35.2%,比word2vec 模型提高了 6.3%。(3)提出了多级注意力融合机制的藏文实体关系抽取方法远程监督方法会出现错误标记问题,影响实体关系抽取的性能。为了解决这一问题,本文提出了多级注意力融合机制的关系抽取模型。在词级别引入自注意力机制来提取词的内部特征,在句子级别引入选择性注意力机制为每个实例分配权重,从而充分利用包含信息的句子,减少噪声实例的权重。同时引入联合评分函数,修正远程监督的错误标签,并结合SVM实现藏文实体关系分类。实验结果表明,该模型的F1值达到62.6%,比基线模型提高了 29.9%。
其他文献
地表水体是水资源的重要组成部分,对地表水体区域定量统计是分析水资源基本情况的有效手段。人工实地勘查作为传统的水体面积测量方法,不仅耗时费力,成本高,而且误差较大,但
在矿山深部施工和开采的过程中,由于开挖卸荷的作用使岩石内部高地应力所聚集的能量释放,使开挖的巷道发生失稳破坏,在极端情况下,大量的弹性能以动能的形式瞬间释放,导致岩
氮素是植物生长发育所必需的大量元素,大量施用氮肥能够提高农作物产量、有效解决人均耕地面积少带来的粮食安全问题。同时残留矿质氮进入大气、水体造成全球变暖、地下水硝
随着工业文明的推进,计算机技术、控制技术、智能制造等科学技术的快速发展,使得机器人加工在各个加工制造领域发挥了越来越重要的作用。机器人的柔性加工、智能化加工、数字
无线传感器网络作为一种能采集、感知和监测信息的技术,在科研界得到了高度关注,已成为许多科研专家研究的焦点。作为一门多种学科融合的全新技术,无线传感器网络有着特别广
随着我国城镇化进程的不断加快,信息、能源、资本、人口等要素呈现出了高密度聚集的态势,进而促进了建筑的复杂化、大型化发展。新型建筑的发展给人们生活提供了更加舒适、便
球磨机凭借其设备结构简单、操作方法简便、粉碎比大、处理量大等优点至今仍被多数选矿厂选做主要磨矿设备,但是球磨机存在磨矿效率低、能耗高等问题。针对这些问题,本文参考
基于3D骨架数据的人体动作分类识别因其在娱乐、监控、人机交互等领域的广泛应用而有越来越深入的探索和研究。然而,现有的特征提取都是针对动作的完整骨架数据来进行,需要得到完整动作后才进行动作表征的提取,导致特征提取在分类流程中计算量大、分类延时较长。此外,相同动作执行的快慢不同以及不同动作之间固有长短不一,采集得到的动作数据包含的骨骼数据帧数长短不一致,需要表征编码方法将提取的动作表征进行变换从而得到
粗糙集理论在处理数据的不确定性和不完备性方面扮演着重要的角色。属性约简在粗糙集理论中占据着核心位置,然而目前已有的不完备信息系统属性约简算法大都存在算法时间复杂
本论文以功能化的纳米材料(Fe3O4/Fe3O4@rGO)为载体,负载α-葡萄糖苷酶,制备酶纳米微反应器,并结合HPLC、MS等技术,用于筛选、分离河南道地药材-怀山药中α-葡萄糖苷酶抑制剂。