情境感知的自然语言语义表示方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:darkak
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言是人类沟通与交流的主要方式,以表象的符号表示高度抽象的语义信息。作为人类几千年知识与智慧的结晶,自然语言组织结构复杂,语义表达形式多样。词、短语、句子、段落、文章等都有其各自独有的特点,同时彼此之间也存在着潜在的联系。让模型能够充分理解自然语言,是人工智能完备性问题的重点研究内容之一。要实现这个目标,首先需要解决的问题就是如何表示自然语言的语义。现阶段,基于分布式假设的词向量,以及基于超大规模的语料库与超大规模网络结构的预训练语义表示模型已经取得了优异的成绩。但自然语言的语义理解与表示仍面临着情境信息利用不充分,模型结构复杂,内部机制难以解释等诸多挑战。为此,本文提出利用情境信息来辅助自然语言的语义理解与表示,从情境信息的选择,情境信息的利用以及文本的处理等方面展开深入研究,最终提升模型表示自然语言语义的能力。本文工作与贡献可以概括如下:首先,提出了情境信息丰富的词语义表示方法与情境感知的双重注意力的句子语义表示方法。传统基于分布式假设的词向量表示方法用一个固定向量来表示语义信息,这会导致词义模糊、表达不准确。为此,本文分别从词级别和句子级别对自然语言的语义表示进行研究。一方面,针对词的语义表示缺乏合适情境信息的问题,基于不同情境信息揭示的是词的不同方面语义的发现,通过在大规模语料库中选择不同类型的情境信息训练词向量,实现对词语义更全面的表示。在此基础上,针对具体应用,设计了一种可扩展性良好的神经网络结构,根据具体的语义关系利用注意力机制选择最适合的语义向量表示,实现了对词语义的全面表示与高效利用。实验结果表明本文提出的方法能够显著提高词蕴涵识别的准确率。另一方面,针对句子语义建模过程中情境信息缺失的问题,本文还选择多模态数据(图像信息)作为句子情境信息的补充,利用图像注意力构建句子语义的丰富表达。在此基础上利用句子注意力实现句子之间的语义交互建模,两者相互结合,最终实现句子语义的全面建模与句子语义推理关系的准确识别。在大规模公开标准数据集上的实验也验证了本文提出的方法的有效性。其次,提出了情境信息多层次利用的句子语义表示方法。多模态情境数据(例如图像信息)能够丰富文本的情境信息,但多模态数据形式多样,与句子语义之间存在不同层次的关联。为此,本文从句子语义表示角度提出了图像增强的多层次语义表示框架。分别从词级别、短语级别、句子级别利用图像信息增强对句子语义的准确理解与表示,提升模型表示句子语义以及识别句子间语义推理关系的准确率。更进一步,考虑到图像信息更多的展示视觉特征,与自然语言表达的高度抽象语义存在巨大差异的问题,本文深入研究了图像情境信息的使用方法,提出了一种自适应的图像语义特征抽取器,利用图像的描述句子抽取细粒度的图像语义特征,并设计实现了一种多层次图像增强的语义表示框架。通过融合粗粒度的预训练图像视觉特征与细粒度的图像语义特征实现图像信息的高效利用,进而更为准确地表示句子语义,提升模型的语义表示能力。多个自然语言推理公开标准数据集上的大量实验也证明了本文提出的方法能够有效利用图像实现对句子语义全面准确地表示。最后,提出了情境感知的句子动态阅读表示方法。自然语言是人类最主要的沟通交流方式,因此人类的一些自然语言行为对研究其表示方法有重要的指导与借鉴意义。为此,本文通过借鉴人类阅读习惯,提出了动态阅读的自然语言句子语义表示方法。具体而言,该网络能够根据已掌握的信息动态选择当前状态下最需要关注的一个词,实现对句子中动态变化的重要内容的准确识别。在此基础上,通过不断循环该过程,实现对整个句子语义的准确理解。除此之外,考虑到自然语言的语义表示高度依赖情境信息,情境信息的缺乏会导致语义表示的模糊、不准确。因此,本文提出了局部感知的动态重读网络,在动态重读网络每次只选择一个最重要的词的基础上更进一步,同时选择出帮助理解该重要词的局部情境信息,通过两者的结合,保证对选择出的重点词的准确理解,从而进一步提升模型理解与表示句子语义的能力。多个句子语义匹配任务上的多个不同公开数据集上的大量实验充分证明了本文提出的方法能够准确掌握句子中动态变换的重点内容,实现句子语义的准确理解与表示。
其他文献
随着中小学校园伤害事故频发,学生家长要求学校赔偿的诉讼逐年增多,学校应否承担责任和承担多大的责任成为社会关注的焦点。从校园伤害事故的概念、类型人手,论述该类案件属传统
<正>当今世界正经历百年未有之大变局。我国正处于实现中华民族伟大复兴的关键时期,面临着各种风险与挑战。面对这种新形势,应该围绕如何有效防范化解重大治理风险、坚持和完
随着环境污染问题逐渐加剧,我国的经济发展方式面临转型升级的关键时刻,中国经济正努力朝着环保型方向转变。在此背景下,绿色产业面临着巨大的融资需求。而绿色基金正是这种
数控系统是数控机床的关键功能部件,是保证机床加工精度重要组成部分,数控系统中位移传感器的精度决定了数控系统的加工水平,现有的数控系统多以光栅为位置反馈单元。时栅位移传感器为课题组研制的一种新型传感器,以时空转换思想为理论基础,通过对时间的精准划分实现对空间的精确测量,具有抗干扰能力强、测量精度高等特点,在可靠性以及成本上都有较为明显的优势。把时栅作为角度测量元件应用于全闭环数控系统中不仅可以降低成
目的:观察锯齿线结合平滑蛋白线皮下埋置对皮肤提升紧致的临床疗效。方法:应用带锯齿线的穿刺针在SMAS筋膜层进行穿刺,将松弛下垂的皮下组织及筋膜组织向上提拉,改善面部皮下
语义分析是从非结构化的文本数据中识别出语义的形式化表示,并将其转化为结构化数据的过程。浅层语义解析是由语义分析分解出的、具有通用性的子任务构成。本文围绕如何有效
新创企业初创阶段的战略导向对其未来存续具有持久影响,但具体影响机理有待论证。采用STROBE六维划分法,连续4年对D&B数据库中的抽样企业进行调研与“健康检查”,基于523家美
本文从经济学、战略管理、组织学习理论三个角度讨论了企业知识联盟的特征、形成、治理结构、动态过程及绩效。文章认为知识联盟的核心是学习联盟伙伴的潜藏性知识。知识的转
<正>YM菌是由山友株式会社(日本鹿儿岛县)的社长山村正一先生发现,并获得专利认证(中国发明专利ZL 02826097.X)的技术。它属于牙孢杆菌的一种特殊微生物,能在90℃以上的超高
目的:探讨5-羟色胺转运体蛋白(SERT)在内脏高敏感性中的作用,为功能性胃肠病的发病机制研究提供理论基础.方法:采用乳鼠醋酸灌肠建立大鼠慢性内脏高敏感动物模型,同时设立对