基于深度学习的命名实体识别的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:mengwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理领域的关键技术之一,在信息抽取、机器翻译、知识问答等任务中发挥着基础性的作用,命名实体识别主要研究的是从非结构化文本中识别出包含特殊含义的词汇或专有名词。早期的命名实体识别方法是基于规则和词典的,这些方法严重依赖领域专家制定的规则,可移植性差,后续发展到基于统计学习的方法,此类方法通过手动特征工程,构造和提取特征,但是需要耗费大量的时间和人力成本,而且特征对信息的表现能力不稳定。随着近几年深度学习的发展和应用,基于深度学习的方法开始逐渐被应用到命名实体识别任务中,比较具有代表性的是BiLSTM-CRF模型,本文选择该模型作为基线模型进行对比实验。除此之外,中文命名实体相对于英文来说,具有实体结构复杂、类型众多等特点,并且由于中文语言本身的特点,识别任务难度更大、挑战更多。针对中文命名实体识别任务中存在的问题,本文基于深度学习的方法,设计和改进了命名实体识别的模型,并在相关数据集上进行识别性能的验证,在此基础之上,设计和开发了命名实体识别系统,主要研究工作如下:本文首先提出了一种词汇增强的字级别特征向量表示方法,该方法通过结合外部词典,构建不同类别的词集合,并将集合进行压缩和向量化,将词汇信息融入到字向量中,有效避免了词级别方法中分词任务的错误传播问题,并且将双字特征也有效整合到字向量表示中,经过实验验证,该方法在实体识别的准确率、召回率和F1值方面均实现了有效提高。此外,在基于深度学习的命名实体识别的三层架构模型的标签解码层,本文提出了实体边界检测和实体类型判别算法,该算法底层实现是基于多层感知机和softmax,在完成上下文编码层特征提取后,将特征输入到由边界检测和类型判别组成的多任务框架中进行联合训练,经过数据集上实验验证,该算法有效提升了命名实体识别的性能。最后,在前述两个研究工作的基础上,本文设计实现了一个命名实体识别展示系统,该系统可以实现对实验过程中使用的数据集内部信息和模型结构的展示,并且可以根据用户选择的数据集,以图的形式对比展示出该数据集上各模型的识别性能。
其他文献
为确保大渡河龚嘴水电站鱼道能够成功过鱼,基于龚嘴水电站坝下河段鱼类集群分布的水声学观测结果,结合研究河段水流条件,分析鱼类集群分布特征,并根据主要过鱼对象关于水力学因子的适宜性特征,提取坝下河段鱼类主要上溯通道,论证龚嘴水电站鱼道进口布置方案.结果表明:坝下河段鱼类垂向分布范围为1.15~11.62 m,主要分布在中下层水域;鱼群主要集中在河段中上游区域;鱼类上溯通道分布于靠近两侧河岸的水域,流速为0.1~1.2 m/s;在北纬29.290°~29.292°范围内,存在横跨整个河宽的鱼类集中分布区域,说明
广泛分布于天然河道浅滩的植被能够改变河流局部的水力特性和泥沙运移过程,为了解植被对弯道水流特性的影响,针对特定流量下凸岸侧含有刚性挺水植被的弯道,对植被密度、位置不同时水流特性的沿程分布规律开展试验探究.通过建立弯道水流概化模型,利用ADV采集三维流速数据,对比无植被和有植被(植被密度分别为0、2.2%和4.5%)条件下的流速分布,定性分析不同工况下植被对弯道水流紊动特性的作用,确定弯道环流的结构及强度.结果表明,凸岸侧植被的存在(在0°~90°弯段,1/4河宽区间内均匀分布)能有效削弱弯道环流强度,但对
当前我国水库大坝安全监测工作存在监测项目不完善、施工安装不规范、运行管护能力不足等问题,导致部分安全监测系统建成后不能正常运行,造成建设资金浪费甚至影响大坝安全管理工作.结合全国水库大坝安全监测系统建设与运行现状调研成果及工作经历,系统梳理大坝安全监测在规划、设计、审查、招标、施工、验收及运行管理等环节存在的一系列问题,并深度剖析水库大坝安全监测现状原因.针对性提出了改进水库大坝安全监测工作的对策和建议,包括提高对大坝安全监测工作重要性的认识,加大安全监测培训力度,研究出台大坝安全监测管理办法,组建大坝安
近年来我国的水利信息化已取得长足进步,智慧水利建设即将步入高潮,但各应用系统的具体建设目标、标准与技术路线等仍在探索中.水工程安全监测智能化是智慧水利的重要组成部分,其现实目标的边界取决于人工智能技术的成熟度.考虑到人工智能技术的现状并基于数十年大坝安全监测实践的经验,系统分析了水工程安全监测智能化面临的挑战,提出了水工程安全监测智能化的“三度”理念,合理的近期目标及“四化”路线.首先,需要从哲学的高度来把握“应该做什么”和“能够做什么”,从理性的角度即技术、经济、安全诸方面来衡量其合理的范围和程度,并自
针对水库大坝巡视检查网络培训需求,研究严肃游戏,提出水库大坝巡视检查培训系统架构,探讨大坝BIM建模、巡检点和缺陷三维建模、水库枢纽场景仿真等关键技术,分析水库大坝巡视检查要求、方法、设备、内容,研发了基于Unity3D的水库大坝巡视检查培训系统.水库大坝巡视检查培训系统由数据层、模型层和应用层组成,具有巡视检查知识、巡视检查训练、巡视检查考核和系统管理等功能.水库大坝巡视检查培训系统解决了传统培训方式中覆盖面窄、成本高、时间长等问题,可用于水库管理人员的培训,特别是没有监测设施或监测设施损坏的中小型水库
数字图像是人类在科学技术发展中认识世界的一个重要媒介。与人类视觉相似,计算机可以通过设备捕捉到的数字图像来获取和传递信息,以完成特定任务。图像分割作为数字图像处理的基础且关键的技术受到广泛研究,当前已有许多方法或模型被应用到图像分割技术中,其中层次合并树作为一种结合区域合并技术和二叉树结构的图像分割建模方法,在提供多粒度的图像描述和灵活的规则约束嵌入方面有着明显优势。然而,已有的基于层次合并树的图
基于离散单元法进行一系列砂土直剪数值模拟试验,探究存在转动阻抗作用时颗粒抗转能力与砂土相互作用间宏细观力学的内在联系.通过抗转动线性接触模型模拟砂颗粒间的接触本构关系,得出的宏观应力-应变特性、强度指标和剪切带变形规律与前人研究相类似,验证了砂土直剪数值模拟试验的可行性.细观层面,试样内平均力学配位数及强接触比例均随着抗转动系数的增大而减小.结合玫瑰图、偏组构和第二不变量表征的张量研究各向异性的演化规律发现:在剪切过程中,法向接触力和切向接触力的各向异性均随抗转动系数的增大而增大,其中强接触偏组构均大于整
变形预测模型是大坝结构安全性态分析的关键技术支撑.针对现有大坝变形预测模型在精确度、泛化性等方面的不足,将自适应模糊神经网络引入到大坝变形预测模型中,利用动态权重粒子群算法对自适应模糊神经网络中模糊层的适应度值进行参数寻优,形成可以寻找最优适应度值的自适应模糊神经网络,进而建立基于DPSO-ANFIS的大坝变形预测模型.根据大坝原型监测数据,代入训练好的模型得到输出值,并将其与实际监测数据进行对比分析.工程实例应用表明,基于DPSO-ANFIS的大坝变形预测模型输出值与实测值偏差最大为0.0516 mm,
自然界中岩体破坏的主要形式是沿着滑面的剪切破坏,且主要表现为剪切流变损伤特征.根据软弱夹层不同剪切应力水平下的试验数据分析,引入可以表征其流变过程中参数损伤的变量D,提出了一个基于D的可以反映软弱夹层加速流变特性的黏弹塑性非线性流变模型,与伯格斯模型串联构成了一个能全面反映3个流变阶段的新的软弱夹层剪切流变损伤模型.基于FLAC3D使用C++语言对该流变损伤模型进行了二次开发,与室内流变试验进行了对比验证.结果表明:(1)每级剪应力下,其瞬时应变均较为接近,且经过相同时间的应力加载后,无论是稳定后的应变值
2021年11月18日,中国工程院公布2021年增选院士名单,南京水利科学研究院胡亚安正高级工程师当选为中国工程院院士.rn胡亚安院士,1965年2月出生,湖北云梦人,中共党员,工学博士,博士生导师.1983年毕业于葛洲坝水电工程学院,随后进入南科院攻读硕士、博士学位并留院工作至今.现任南科院水工水力学研究所所长、通航建筑物建设技术交通行业重点实验室主任、国际航运协会(PIANC)升船机工作组主席.