【摘 要】
:
事理逻辑知识是指事件在时间和空间上发生和演化的规律和模式,包括事件之间的顺承、因果、条件、蕴含和上下位等关系。这是一种非常有价值的知识类型,挖掘这种知识对我们认识人类行为和社会发展变化规律非常有意义,对于人工智能领域的多种任务具有非常巨大的应用价值。然而,以知识图谱为代表,现有的大型公开知识库普遍是以实体及实体间的关系为核心,未能对事理逻辑这一类重要常识知识进行存储和表示。为了对传统知识图谱的表征
【基金项目】
:
国家重点基础研究发展计划(973)项目《中文深度分析与开放域内容理解》(项目编号2014CB340503); 科技创新2030—“新一代人工智能”重大项目《可泛化的领域知识学习与计算引擎》(项目编号2018AAA0101901); 国家自然科学基金面上项目《基于跨语言信息的大规模稀缺资源知识库自动构建技术研究》(项目编号6
论文部分内容阅读
事理逻辑知识是指事件在时间和空间上发生和演化的规律和模式,包括事件之间的顺承、因果、条件、蕴含和上下位等关系。这是一种非常有价值的知识类型,挖掘这种知识对我们认识人类行为和社会发展变化规律非常有意义,对于人工智能领域的多种任务具有非常巨大的应用价值。然而,以知识图谱为代表,现有的大型公开知识库普遍是以实体及实体间的关系为核心,未能对事理逻辑这一类重要常识知识进行存储和表示。为了对传统知识图谱的表征能力进行补充,本文将知识图谱的研究中心从名词性实体转移到动词性事件上来,从而提出了事理图谱的概念。作为一种新的知识表示形式,事理图谱(Eventic Graph,EG)是一个描述事件之间演化规律和模式的事理逻辑知识库。结构上,事理图谱是一个有向图,其中节点代表事件,有向边代表事件之间的顺承、因果、条件、蕴含和上下位等事理逻辑关系。本文从事理图谱的基本概念入手,探究了基于文本的事理图谱抽取式构建方法,提出了基于端到端神经网络的因果事理知识生成方法,并探索了事理图谱在文本事件预测、因果关系分类等文本事件关系推理任务上的应用方法。具体来说本研究的主要内容包括以下四个方面:1.基于文本事件关系抽取的事理图谱构建。本文提出了事理图谱,描述了事理图谱相关的基本概念。以出行领域事件顺承关系为切入点,本文提出了一套构建事理图谱的方法框架。基于此框架,本文构建了中文出行领域顺承关系事理图谱,包含近3万事件节点和23万多条顺承关系有向边。此外,针对金融领域以因果关系为核心的特点,本文还构建了金融领域因果事理图谱,包含219万事件节点和161万条因果关系。2.基于因果知识生成的事理图谱补全。本文探索了基于端到端神经网络的因果事理知识生成技术,对于任意的开放域句子级事件输入,可生成多个可能的句子级原因或者结果。本文开发了一个大规模的英文因果数据集Causal Bank用于训练模型。此外,本文还扩展了关键词约束的文本生成解码模块,使之可以支持析取正约束解码。人工和自动评估指标表明,即使对于全新的输入,该方法也可以生成高质量、多语义的原因和结果。本文的生成式因果知识获取是对抽取式方法的重要补充。3.基于可迁移预训练模型的故事结尾预测。本研究探索了在已经得到大量事理知识三元组的情况下,如何将事理知识跟预训练语言模型相结合,把事理知识注入到预训练语言模型中,从而帮助提升事件预测、因果推理等下游任务的性能。我们提出了一个叫做Trans BERT的三阶段训练框架。它不仅可以学习大规模未标注数据中的通用语言知识,而且可以有效利用各种语义相关任务提供的有监督信息。在故事结尾预测、因果对关系分类等多个数据集上的实验结果表明,Trans BERT可以很好地扩展到其他任务、语言和预训练模型上。4.基于可扩展图神经网络的脚本事件预测。事理图谱本身是一个图谱状结构。本文还探索了如何直接在事理图谱的图结构上进行事件的推理和预测。具体地,本文提出了一个可扩展的图神经网络模型,通过每次只在一个子图结构上进行网络事件表示学习,将大规模事理图谱图结构和端到端的图神经网络训练方法结合起来。基于事理图谱图结构和图神经网络的方法,在脚本事件预测任务上显示出了优越的性能,表明了事理图谱在事件预测任务上具有极大的应用价值。总的来说,本文在事理图谱的抽取式构建、因果事理知识的生成式补全、事理图谱在文本事件关系推理任务上的应用等方面展开了研究。本文的研究只是在事理图谱研究方向的一个初步探索,希望本研究能够为事理图谱未来的研究和发展提供一定的启发。
其他文献
在热防护系统设计中,防热材料起到至关重要的作用,其中烧蚀防热材料因其密度小、防热效率高,在返回舱和星际探索中应用越来越广泛。烧蚀防热材料的热物性参数随温度的变化规律决定了材料内部热传导过程,由于升温过程中发生复杂的热解反应,防热材料的热物性参数很难通过实验方法准确获取,本文通过求解传热反问题辨识防热材料热解过程中的热物性参数。根据防热材料热解与碳化温度将材料区分为原始材料、热解材料与碳化材料。针对
目的 探究青藤碱对人肝癌HepG2细胞的抑制作用。方法 采用CCK-8试剂盒检测青藤碱对HepG2细胞增殖的抑制率,在荧光显微镜、倒置显微镜下观察细胞形态,流式细胞仪检测细胞凋亡率、ROS水平、线粒体膜电位、MPTP,Westernblot实验检测Cyt-c、caspase-9、caspase-3、Bcl-2、Bax蛋白表达。结果 青藤碱对HepG2细胞具有生长抑制作用,72hIC50为1.4mm
C1orf109是课题组前期获得的一个功能未知基因,定位于h Ch1p34.3。NCBI数据库数据显示C1orf109有多个转录本,可编码多个存在长度和/或序列差异的蛋白质。课题组前期发现C1orf109短转录本编码203个氨基酸的蛋白参与肿瘤细胞的细胞周期调控,影响细胞的迁移运动。但截至目前,C1orf109更加深入的功能却未见报道。本研究的目的在于揭示C1orf109长编码转录本(C1orf1
空间轨道存在的失效飞行器,已经严重威胁到了在轨装备的安全运行,利用空间机械臂完成轨道清障具有重要意义。但失效飞行器没有特定的抓捕接口和视觉测量靶标,绝大多数目标处于自旋复合章动的翻滚状态,捕获这类大惯量失稳目标对机械臂的控制性能是巨大的挑战。在这一背景下,以空间机械臂捕获大惯量非合作失稳目标为对象,本文对空间机械臂阻抗控制、动力学参数辨识方法、状态观测技术、抗扰动设计和基于视觉反馈的运动规划方法开
随着网络通信技术和计算信息技术的进步,网络化控制近年来得到了长足的发展。区别于传统点对点控制系统,网络化控制系统中的被控对象、传感器、控制器、执行器等各系统部件之间利用共享的通信网络实现数据的传输,从而使得资源共享和远程控制得以实现。由于网络化控制系统易于安装、便于维护,其在工业生产和社会生活的各个领域得到了广泛的应用。另一方面,随着控制系统逐渐趋于大型化和复杂化,系统部件或子系统发生故障可能导致
涡轮冲压组合发动机(TBCC)因具备不需携带氧化剂、可水平起降、安全性高等优势,可作为两级入轨可重复使用运载器、高超声速飞机等军民两用飞行器的推进系统,是近些年来研究的热点。TBCC发动机一般由燃气涡轮发动机和亚/超燃冲压发动机组成,这两级发动机之间的工作切换过程被称为转级过程。TBCC转级过程中因为两级发动机同时工作,所涉及可调变量繁多、非线性特性显著,因此协调诸多控制变量使得组合发动机维持总推
近年来,光催化技术在分解水产H2以及环境污染的修复等领域取得了长足的进步,利用光催化剂实现太阳能的转化越来越成为实现可持续发展的重要手段。钨基光催化材料由于具有多价态和表面等离激元等性质,使其具备全光谱光催化活性,而表面等离激元效应具有提高光吸收、增强光生电子激发以及高催化反应活性等优点。因此,研究表面等离激元对钨基光催化材料的光吸收调控、光生载流子分离及其光催化机理,可为钨基材料在工业废水处理以
烷基苯的直接氧化产物醇、醛、酮及酸是工业上重要化学品的中间体,在工业上和实验室都具有重要的价值。早期使用一些强氧化剂进行烷基苯的氧化反应存在腐蚀性强、高毒性、选择性差、不经济和处理困难等诸多问题。为了满足生产和生活上可持续发展的需要,基于宏观三维大孔树脂的无模板法开发多种环境友好、高稳定性、低成本、高选择性又可重复使用的介孔碳基材料用来催化乙苯到苯乙酮反应是本论文研究重点。主要包括以下三个部分:第
状态估计在控制理论研究和实际工程应用中都是最重要的研究课题之一。实际系统往往受到未建模动态、干扰、噪声等不确定性因素的影响,很难得到准确的状态估计。如何处理不确定性因素的影响是状态估计最重要的一个问题。目前,主要有两种处理不确定性因素的方法:一种是基于随机概率理论的方法,另一种是集员方法。基于随机概率理论的方法需要干扰和噪声等的概率分布的先验知识,但可能与实际系统中的情况存在一定偏差。另外,一些本
汽车底盘控制对于保障车辆安全性能以及舒适性能具有极其重要的意义。本文针对汽车底盘系统开展了从单一系统研究、到系统间协调控制,再到整车一体化控制的系列研究工作,具体研究内容如下:在汽车制动过程中,车轮抱死会增加制动距离甚至失去转向能力,给车辆行驶安全带来巨大的隐患,因此对汽车制动防抱死系统(ABS)的研究至关重要。但是目前众多ABS研究中棘手的问题在于:1)需要引入极度复杂的轮胎——路面摩擦模型(μ