论文部分内容阅读
生物医学事件抽取技术,能够帮助研究人员快速地从大量生物医学文献中准确定位事件,并以结构化的形式表示,在药物研制、临床辅助诊疗、构建生物医学本体库等方面具有重要的研究意义和应用价值。生物医学事件描述了生物医学实体状态变化的过程,主要由触发词和事件元素组成。本文围绕生物医学事件抽取关键技术展开研究,重点探索了基于深度学习方法的触发词识别和事件元素识别技术。本文的主要研究内容如下:(1)融入自注意力机制的生物医学事件触发词识别。触发词代表了事件发生的动作(比如:抑制、发展和形成等)及事件的类型。本文针对触发词识别任务中由于文本中存在大量复杂事件,从而造成了对文本内部包含的特征挖掘不充分的问题,提出了一种融入自注意力机制的事件触发词识别方法。该方法重点关注于文本自身,在引入单词分布式语义特征的基础上,采用双向门控循环单元网络捕获相关上下文特征,并在双向门控循环单元网络中融入了自注意力机制从多层面充分的挖掘文本自身包含的特征,来更好地理解和表示句子所表达的语义信息。最后融合词级特征通过分类层对触发词进行分类。(2)基于卷积神经网络、双向门控循环单元网络和注意力机制的事件元素识别。事件元素是事件发生时所涉及到的参与元素,主要是生物医学实体或者其他事件。本文将事件元素识别任务视作一种关系抽取任务,对事件元素及其类型进行识别分类。由于事件元素识别任务中一个句子中可能包含多个触发词,且一个触发词可能对应多个元素,因此需要提取更深层次的语义特征进行区分用于关系分类。本文提出了一种基于联合网络的事件元素识别方法,引入依存关系信息,领域词向量,距离特征,事件及实体类型特征来丰富语义特征,结合卷积神经网络以及双向门控循环单元网络两者的优势对深层特征进行有效地提取,并引入注意力机制关注更重要的特征信息,提升分类精度。最后,根据生物医学事件的特点,对事件元素识别结果进行规则后处理,生成最终事件。通过在MLEE数据集上实验发现,在事件触发词识别以及事件元素识别任务上,与已有的方法相比,本文提出的方法均取得了更高的综合性能,证明了本文提出的方法在这两个任务上的合理性和有效性。