论文部分内容阅读
知识图谱是人工智能研究和智能信息服务基础核心技术,能够赋予智能体精准查询、深度理解与逻辑推理等能力。目前,基于深度学习的自然语言处理技术只能从数据中机械地学习完成特定任务的语义模式,不具备鲁棒性和可解释性,做不到对语言的深层理解与推理。我们认为要想实现真正的自然语言理解,需要在现有深度学习技术的基础上融合知识图谱信息。实现自然语言处理与知识图谱的融合并非轻而易举,需要解决几个关键问题:(1)知识表示。在深度学习模型中充分利用大规模知识图谱,需要首先解决知识图谱表示的问题。在这方面,我的工作包括:a.考虑知识图谱复杂关系的知识表示:我们提出了基于映射矩阵进行空间投影的知识图谱表示模型,用于处理知识图谱中的复杂关系。b.考虑知识图谱复杂路径的知识表示:我们认为实体之间多步的关系路径同样包含着丰富的关系推理信息,并提出了一种基于路径表示的知识图谱表示模型。c.考虑知识图谱复杂属性的知识表示:我们提出了一种同时学习知识图谱中实体、关系和特性表示的知识图谱表示模型,以提高知识图谱表示的质量。(2)知识获取。如何从互联网大规模的结构化、半结构和无结构数据中自动获取知识,辅以少量人工校验,是大规模知识图谱构建的必由之路。在这方面,我的工作包括:a.基于选择注意力机制的关系抽取:针对远程监督数据中存在大量的噪音的问题,我们提出了一个基于句子级别选择注意力机制的神经网络关系抽取模型,用于过滤错误标注的句子。b.基于多语言注意力机制的关系抽取:现有的关系抽取系统通常专注于如何更好地利用单语言数据,忽略了多语言数据对于关系抽取任务的帮助。针对这个问题,我们提出了一个基于多语言选择注意力机制的关系抽取模型。(3)知识应用。面向不同自然语言处理任务,我们需要探索将知识合理地融合到该任务下的深度学习模型中,实现知识指导的自然语言理解。在这方面,我的工作包括:a.基于知识的实体分类:我们提出了基于知识注意力机制的实体分类模型,用于考虑命名实体和上下文之间的联系以及知识图谱中丰富的有关信息。b.基于知识的开放域问答:我们借鉴人类回答问题的模式提出了一个基于‘‘粗读-精读-总结’’模式的开放域问答系统。我们的工作有效地解决了面向知识图谱的知识表示、知识获取、知识应用中的关键问题,为迈向真正的自然语言理解打下了坚实的基础。