论文部分内容阅读
数字时代的到来使数据成指数增长,我们可以通过各种应用程序,来获得需要的信息。但是现实生活中的信息大多表示为非结构化的文本形式,难以从海量的文本中高效、快速、准确地提取出有价值的信息,在此背景下,实体关系抽取任务应运而生。实体关系抽取通过自动识别句子中实体之间的关系,从而有效地提取实体间的语义关系,构建结构化的知识库,为问答系统,信息检索以及知识图谱等应用提供了支撑。目前,实体关系抽取在中英文领域发展迅速,然而,对于低资源语言的研究相对较少,如藏文实体关系抽取的研究还处于探索阶段,其中也存在着许多困难和挑战。首先,相比于语料丰富的中英文领域,藏文实体关系训练语料规模较小,语料标注处理比较困难;其次,藏文语料同样存在语义歧义的问题,传统的词向量表示无法区分词汇在不同语境下的含义;最后,基于深度学习的藏文实体关系抽取需要大规模的训练语料,目前在小规模标注语料下难以获得较高的准确率。基于以上问题,本文通过构建一定规模的藏文知识库以及关系抽取语料库,研究了基于远程监督和注意力机制的藏文实体关系抽取,主要工作如下:(1)基于远程监督的藏文实体关系抽取有监督的方法需要大规模、人工标注的数据集,而藏文实体关系抽取训练语料规模较小。因此,本文利用远程监督方法构建藏文实体关系抽取的数据集,通过对齐构建好的知识库与文本,自动生成大规模的数据训练关系抽取模型,预测文本中实体对之间的语义关系。然后,利用分段卷积神经网络,根据两个给定的实体来自动学习相关特征,并引入多示例学习的方法来提高藏文实体关系抽取的准确率。实验结果表明,基于多示例学习的分段卷积神经网络,利用远程监督方法自动标记的数据训练的关系抽取模型,F1值达到32.7%,比基线RNN模型提高了 7.2%。(2)融合动态语义信息的藏文实体关系抽取方法词向量表示是自然语言处理的基础和关键,其质量直接影响到整个系统的性能。而藏文语料同样存在一词多义的问题,为了从大规模语料中学习到丰富的语义知识,本文基于双向长短期记忆神经网络,通过对词进行深层语境化的表示,结合词向量、位置向量和词性向量学到单词的复杂特征以及在不同的语言环境中的变化。实验表明,该方法有效地为不同语言环境下的单词赋予不同的向量表示,而且集成到藏文实体关系抽取模型中,F1值达到35.2%,比word2vec 模型提高了 6.3%。(3)提出了多级注意力融合机制的藏文实体关系抽取方法远程监督方法会出现错误标记问题,影响实体关系抽取的性能。为了解决这一问题,本文提出了多级注意力融合机制的关系抽取模型。在词级别引入自注意力机制来提取词的内部特征,在句子级别引入选择性注意力机制为每个实例分配权重,从而充分利用包含信息的句子,减少噪声实例的权重。同时引入联合评分函数,修正远程监督的错误标签,并结合SVM实现藏文实体关系分类。实验结果表明,该模型的F1值达到62.6%,比基线模型提高了 29.9%。