电力领域实体关系抽取及知识图谱构建研究

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:w6832793xym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识图谱构建技术的日益完善,越来越多基于知识图谱的应用开始出现。人们的目光开始从通用领域知识图谱转向垂直领域知识图谱。垂直领域知识图谱的领域性较强,根据业务需求会存在不同的数据类型以及数据模式。关系抽取是信息抽取任务中子任务,是构建知识图谱的关键步骤之一,意图从非结构化的数据中获得已识别实体的关系并对知识图谱进行填充。本文主要对知识图谱构建中关系抽取这一任务进行研究,针对不用类型的电力文本,使用不同的关系抽取方法进行电力领域实体三元组抽取,并绘制图谱。本文从两个方面进行研究:(1)针对电力调度管理规程文本,本文采用依存句法分析的方法对实体三元组进行抽取。通过对抽取实体进行补全以及对于长难句并列结构的处理,基于基本的汉语语法结构,围绕核心动词自动抽取了较为准确的实体三元组。结果证明对于文章结构特征明显但句子结构复杂的电力调度管理规程文本,基于依存句法分析的关系抽取方法依旧可以较好的效果。最后将自动抽取结果同文本中的结构化数据结合绘制知识图谱。(2)针对网上可获取的大量数据,本文采用远程监督方法构建了一个电力领域用于实体关系抽取的数据集。分别对比了双向长短期记忆网络、卷积神经网络以及分段卷积神经网络在句子表示方面的效果。此外,针对远程监督构建的数据集存在噪音这个问题,比较了多示例学习以及注意力机制对于数据集降噪的效果。结论证明在自建训练集上两种卷积神经网络在句子表示方面略优于双向长短期记忆网络,多示例学习以及注意力机制可以明显降低数据集的噪音影响。分段卷积神经网络同传统卷积神经网络在关系抽取任务上差距不大,存在后者更优的可能性。
其他文献
近几年随着信息技术的发展和互联网在农村的普及,以电子商务为代表的互联网经济在我国农村发展迅速。电子商务为农产品销售开辟了新的渠道,加之我国传统农村社会是人情社会、熟人社会,血缘关系和地缘关系密切,就使得农村电商发展初期的成熟模式很容易形成示范效应在周围迅速扩散,因此村域范围的农村电商产业集群的形成和发展成为必然。农村电商产业集群往往在发展初期呈现迅猛发展,但当其发展到一定规模,随着市场逐渐饱和及消
目的探讨和分析延续护理对慢性乙型肝炎出院患者抗病毒治疗依从性的影响。方法选择商丘市第一人民医院分院2014年6月至2015年6月收治的慢性乙型肝炎并且出院仍进行抗病毒治疗