论文部分内容阅读
否定是存在于所有语言中一种复杂的语言现象,能对句子或词语包含的语义信息进行反转。越来越多的自然语言处理任务需要从文本信息中挖掘出有价值的信息,否定的存在将会导致挖掘到无用甚至完全相反含义的信息,对任务的性能产生消极影响。因此,需要对否定信息进行识别,将文本信息中肯定信息与否定信息分离,并进一步识别出否定的作用范围,从而获得句子表达的正确含义,同时也能提升情感分析、信息检索、信息抽取等任务的性能。本文主要围绕汉语和英语的否定触发词识别任务、否定覆盖域识别展开了以下工作:1)使用双向长短期记忆网络结合条件随机场为模型对汉语和英语分别进行否定触发词识别和否定覆盖域识别。该模型能够克服条件随机场严重依赖人工提取特征的缺点和双向长短期记忆网络没有从全局考虑标签序列的缺点,仅以预训练的词向量作为输入进行否定触发词识别,在此基础上添加标准触发词特征进行否定覆盖域识别。实验证明:在汉语和英语语料上,基于该模型的否定触发词识别和否定覆盖域识别都获得了较好的实验结果,并且该模型在英语语料的生物医学领域不同文本之间具有较强的泛化能力。2)融合自注意力机制进行否定覆盖域识别。针对否定覆盖域较长时难以识别完整的问题,自注意力机制层通过计算句子内部任意两个词语的相似性来拉近任意两个词语之间的距离,提升了模型学习长远上下文依赖的能力。实验结果证明,该方法对提升否定覆盖域识别性能有重要意义。3)融入依存句法信息进行否定覆盖域识别。否定覆盖域是否定触发词的作用范围,在依存句法上存在支配和被支配的关系,因此在BiLSTM-CRF模型的基础上,通过融入依存句法信息来拉近依存关系词语之间的距离以提升双向LSTM层学习长远上下文依赖关系的能力。实验结果表明,在表达较为规范的语料上,该方法能提升否定覆盖域识别的效果。