论文部分内容阅读
命名实体识别作为序列标注任务之一,与分词、词性标注等都是中文自然语言处理的基本任务。多个自然语言处理的应用,如信息抽取、信息检索、机器翻译和问答系统等都依赖命名实体识别的结果。传统的基于统计学习的方法在命名实体识别任务上取得了不错的结果,已经广泛应用于生产环境中。但其性能较为依赖人工特征,如特征模板、领域知识和命名实体词典等。随着互联网的普及和发展,大数据背景下,命名实体识别系统也面临着海量无规则、多形态、跨领域文本的新挑战。 本文主要工作如下: (1)围绕命名实体识别任务,分析了中文命名实体识别的任务特点,对国内外现有的方法进行了调查研究,考察了基于统计的机器学习方法的原理和效果。 (2)研究了基于神经网络和深度学习的命名实体识别方法,讨论了词向量的训练方法,循环神经网络、长短期记忆网络的结构和不同实现及其与条件随机场的结合方式。 (3)基于长短期记忆网络与条件随机场构建了序列标注框架,在以文言文本为主的中医领域语料上进行症状术语识别实验,其语料全部来源于文献记载的中医医案。并在此基础上,针对中医医案症状术语的组成特点,在不增加人工标注成本的同时,制订了额外的字符级别特征,提升了中医症状术语实体识别的效果。 (4)在公共领域语料场景下,分析了不同粒度的嵌入向量对命名实体识别结果的影响,并提出了基于字词向量结合的多粒度嵌入、训练和测试语料进行命名实体识别的思路,并通过实验比较了不同粒度的数据集上模型精度、效率的差异。 实验表明,增加症状字特征的症状识别方法提高了框架在特殊领域文言文本上的适应性;结合字词向量的训练方法在保持较高准确率、召回率的同时降低了模型复杂度,对比字粒度方法大幅减少了训练时间。