基于神经网络的中文命名实体识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:denny322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为序列标注任务之一,与分词、词性标注等都是中文自然语言处理的基本任务。多个自然语言处理的应用,如信息抽取、信息检索、机器翻译和问答系统等都依赖命名实体识别的结果。传统的基于统计学习的方法在命名实体识别任务上取得了不错的结果,已经广泛应用于生产环境中。但其性能较为依赖人工特征,如特征模板、领域知识和命名实体词典等。随着互联网的普及和发展,大数据背景下,命名实体识别系统也面临着海量无规则、多形态、跨领域文本的新挑战。  本文主要工作如下:  (1)围绕命名实体识别任务,分析了中文命名实体识别的任务特点,对国内外现有的方法进行了调查研究,考察了基于统计的机器学习方法的原理和效果。  (2)研究了基于神经网络和深度学习的命名实体识别方法,讨论了词向量的训练方法,循环神经网络、长短期记忆网络的结构和不同实现及其与条件随机场的结合方式。  (3)基于长短期记忆网络与条件随机场构建了序列标注框架,在以文言文本为主的中医领域语料上进行症状术语识别实验,其语料全部来源于文献记载的中医医案。并在此基础上,针对中医医案症状术语的组成特点,在不增加人工标注成本的同时,制订了额外的字符级别特征,提升了中医症状术语实体识别的效果。  (4)在公共领域语料场景下,分析了不同粒度的嵌入向量对命名实体识别结果的影响,并提出了基于字词向量结合的多粒度嵌入、训练和测试语料进行命名实体识别的思路,并通过实验比较了不同粒度的数据集上模型精度、效率的差异。  实验表明,增加症状字特征的症状识别方法提高了框架在特殊领域文言文本上的适应性;结合字词向量的训练方法在保持较高准确率、召回率的同时降低了模型复杂度,对比字粒度方法大幅减少了训练时间。
其他文献
近些年来,三维网格模型成为表示数字几何模型的重要手段,而且在娱乐、网络以及制造业中得到了广泛的应用。三维人脸网格模型的五官分割是颅面重构研究项目的子课题,颅面重构
随着数字技术的快速发展,数字电视所表现出的优势日益显著,越来越受到人们的喜爱,世界各国纷纷发展本国的数字电视技术。数字电视在国外许多国家已经开始慢慢普及,国内数字电
随着网络规模不断扩大,复杂性不断增加,网络的异构性越来越高,要求网络事件管理也具有通用性、开放性、可扩展性。在传统网管协议SNMP中,网络状态信息的获取一般是通过主动轮询或
二维码(two-dimensional barcode)作为一种信息载体技术在多个领域已有研究和应用,现使用手机二维码技术,将远程教育的文字教材与多媒体教学资源相结合,以实现实时解决学生在
嵌入式软件目前已广泛应用于生活和工业中,硬件仿真器是一个重要的可用于运行、调试和验证嵌入式操作系统和应用软件的工具。仿真器常被要求能够正确执行所处理的任务,因此它
当今时代网络技术的迅猛发展和对海量数据处理能力的迫切需求促进了云计算的发展。作为一种新型的计算模式,云计算具有很多传统计算模式所不具备的优点,因此受到工业界和学术界
随着互联网技术的迅猛发展,计算机通信给人类文明带来了翻天覆地的变化。很多情况下,人们的日常工作需要借助网络来完成。应用网络进行各类数据信息的交互不仅得到了广大服务提
目前,我国各油田均已进入开发后期阶段,随着石油勘探和开发工作的深入,油田积累的勘探开发信息日益丰富。由于储层的非均质性强,某些油田有些开发井井距已经达到不足百米,众多的勘
以蚁群算法为代表的群智能方法在遥感信息提取方面的研究是一个新的方法。本文在总结当前分类方法的基础上,将蚁群算法分为基于觅食行为的蚁群优化算法和基于堆尸行为的蚁群
移动网络用户的信息存储是在移动环境下对用户进行快速定位的关键。在移动环境下,对于一次通信过程,系统需要查找并定位相应的接受方的信息,而这个过程往往是要求低延迟和快