基于深度学习的中文命名实体识别方法改进研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:pwd19881217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,互联网产生文本数据的速度急剧增加。这些文本数据中尽管蕴含着大量有价值的信息,却因为其通常以非结构化数据的形式存在而很难直接被利用。通过信息抽取技术可以借助计算机从大量的非结构化数据中抽取出结构化数据,是目前信号处理和自然语言处理的研究重点之一。作为信息抽取技术的基础,命名实体识别具有同样重要的研究价值与意义。命名实体识别指从非结构化数据中识别出人名、地名以及机构名等命名实体。其传统方法主要基于规则和基于统计,但是这种方式通用性差、高度依赖语言学知识而且需要耗费大量的人力来设计特征。所以,目前更常用的是基于深度学习的方法,基于深度学习的命名实体识别方法在整个过程中几乎不需要人为特征介入而且可以通过人工神经网络自动学习特征,摆脱了对语言学知识的依赖且通用性更好。在基于深度学习的命名实体识别方法中,Bi-LSTM-CRF模型因为其优秀的上下文特征提取能力,成为了业界普遍采用的方法。本文通过研究分析认为Bi-LSTM-CRF目前还存在一些不足:如无法区分多义词、建模没有区分重点词与普通词以及缺少对局部空间特征的提取等。因此,本文将Bi-LSTM-CRF模型作为研究基础,使用迁移学习和集成学习从多个方面对其进行改进,并以对人民日报语料的识别效果作为评估标准验证本文所做改进的可行性,本文的主要工作如下:(1)回顾命名实体识别的发展过程并了解其发展现状,多角度分析了Bi-LSTM-CRF模型目前存在的不足及原因。(2)基于迁移学习的思想将Bi-LSTM-CRF模型与19年7月最新的预训练模型RoBERTa进行结合,提出了改进模型RoBERTa-Bi LSTM-CRF。改进模型通过一种生成动态词向量的方式解决了多义词问题,利用自注意力机制改善了注意力分散问题。将改进模型对本文实验数据进行实验后,以命名实体识别任务常用的评测标准F值对模型进行评测,改进模型的F值达到94.89%,比Bi-LSTM-CRF高出5.28%。(3)针对RoBERTa-Bi LSTM-CRF模型仍存在缺少局部空间特征的缺陷,本文基于集成学习的思想,使用了膨胀卷积网络来与其进行集成,利用膨胀卷积神经网络能够对序列进行局部感知能力来获取局部空间特征,之后将局部空间特征用于对RoBERTa-Bi LSM-CRF模型的识别结果作修正,并由此设计了一个可以综合考虑空间特征和时序特征的集成模型。集成模型在本文实验数据上的F值达到了95.79%,比Bi-LSTM-CRF模型高出6.18%。
其他文献
宅基地从最初的所有权与使用权分离到如今“三权分置”模式下探索财产价值的新路径,这一转变不仅有利于重新塑造城乡土地权利体系也对激发农村潜在活力具有重大意义。从过去着力保障农户基本的居住到如今转向积极开发宅基地在市场中应有的财富价值,这既需要政治层面的鼓励和引导,还要在法律领域通过科学的构建做出积极地回应,才能够丰富农村产权制度的同时更为有效的提升振兴乡村产业的治理水平。通过梳理我国宅基地在不同历史阶
随着经济全球化的不断发展,我国的资本市场日趋完善,多层次资本市场体系已初步建成。对于众多中小企业来说,融资难、融资贵一直是困扰它们的难题。新三板市场恰好为中小企业开辟了一个新的融资渠道。“新三板”是业界对全国中小企业股份转让系统(NEEQ)的俗称,其目的是让那些暂时还没有达到上市要求,但是有较强的发展潜力、符合国家产业政策的高新技术型、创新型、成长型企业能够在新三板市场流通股份,实现融资。但是,目
城镇化是一项持续的工程,农村土地被征收难以避免。提及土地征收,不外乎有两种声音:农民利益被侵犯或者一夜暴富,认知过于肤浅。十八大倡议的共享发展,要求发展成果由全体人民公平共享,人民又可在共享中发展自我。《土地管理法》自2004年修订以来,呼吁重修或者另立土地征收制度的声音绵延不绝,但是2012年和2018年人大常委会都未通过其草案。十九大强调推进土地制度改革与乡村振兴,本文将剖析农村土地征收补偿机
水下拖曳系统因具有较高的可靠性和易回收特性被广泛用于水下勘探、环境监测、援潜救生、目标搜索等方面。而这些应用需要高效可靠的水下通信技术支持,以实现观测数据的实时回收及控制指令的及时传达。因此研究实时高效的水下通信方法,对发展水下拖曳系统具有重要意义。水下拖缆电磁信号传输方法,以具有传导特性的电磁信号作为信息传输载体,裸露的拖曳钢缆和水组成的闭合回路作为信道,具有传输速率高、开发成本低、操作简单和保
随着社会工业化程度越来越高和全面小康社会的建成,人们的生活更加便利,出行的选择也更加多样,而汽车由于它的便捷性也成为更多人出行的首选。它给人们的出行带来了极大的便利,但是在带来便利的同时也造成了潜在的安全隐患。汽车道路事故频发给社会生成和人们生活会造成巨大的影响,疲劳驾驶在诸多造成交通事故的因素中占据着重要的位置,为了减轻疲劳驾驶带来的社会危害,可以对驾驶员疲劳状态进行检测,进而从根本上解决疲劳驾
软件开发过程中经常出现的代码复制、粘贴等行为,造成软件系统中都存在着所谓的“克隆代码”。一般认为,克隆代码会增加日后的软件维护代价。为此,研究者提出了许多代码克隆检测的方法和技术,用于在软件系统中识别隐藏的克隆代码。然而,当前的代码克隆检测研究仍然存在一些问题。一方面,大部分研究者关注的是基于源代码的代码克隆检测,事实上字节码比源代码更能反映代码语义信息;另一方面,现有的基于深度学习的克隆代码检测
单层材料为我们提供了二维电子系统中最活跃的领域。石墨烯的成功引发了对其他单层材料的广泛研究。石墨烯是一种由六边形碳原子构成的平面薄片,由于其独特的物理、化学和机械性能,近年来备受关注。理论预测,可以从其他IV族元素中获得与石墨烯类似的单层蜂窝状结构,其中最有可能的材料是硅烯,是石墨烯的硅类似物质,由于硅与现有的电子基础设施的兼容性,它在技术应用方面可能有很广阔的前景。由于硅烯与石墨烯相似的晶格结构
系统思维的本体论研究,是系统哲学领域关于本体论论题探讨的一个重要面向,英国肯特大学的约翰·明格斯(John Mingers)教授,是这一面向研究的先锋人物。聚焦明格斯的系统本体论思想,对其思想的源起、发展阶段、重要论域以及面临的挑战等予以探究,可以在一定程度上窥探到当代系统哲学本体论研究的趋势与走向。随着系统思维由“硬系统思维”转向“软系统思维”,明格斯认为,系统思维由此陷入巨大的困境,即面临建构
财务资源是企业原始投入的资本资金以及在生产经营过程中逐渐积累的利润和各种资本资产,财务资源的特殊性和稀缺性决定了其配置效率直接影响企业整体的效益及效率,而无论何时确定最优资本机构、实现有效投资组合以及经营分配等财务资源配置活动都是在特定的公司治理中进行的,大股东、管理层作为现代商业企业中最重要的实际控制者和经营管理者,两者之间形成的控制权配置格局、委托代理冲突、以及他们之间的监督与合谋等作为公司治
近年来,随着移动互联技术能力的不断拓深,社交网络受移动互联网的影响,越来越多的人开始通过网络建立与世界的联系。网络直播作为一个新兴的发展方向,一跃成为热门行业,为移动多媒体的网络社交开辟了新的途径,在技术与资本的推动与支持下,成为时下最为热评的社交产品。本文通过探讨与研究互联网直播的实践与发展,着重对艺术类直播的发展趋势进行预测分析,将艺术元素作为核心,推出《艺术圈》APP,并对其设计理念和作品实