论文部分内容阅读
命名实体识别是藏文信息处理的基础性和关键性任务之一,藏文命名实体识别就是从藏语文本中发现并分类命名实体,其效果会影响后续的藏文信息抽取和信息检索等任务的性能。当前,藏文命名实体识别以监督式统计机器学习方法为主。传统的特征工程依赖于语言专家的知识和经验抽取命名实体的浅层统计特征,难以表示命名实体的语义信息,而扩大训练集的规模又面临着人工标注语料成本高昂的问题。因此,基于小规模的标注语料构建高性能的藏文命名实体识别模型具有重要的研究价值。本文研究了基于弱监督学习的藏文命名实体识别,主要工作如下:通过未标注文本学习词的分布表示,构造词表示特征表示词的语义信息,加入到藏文人名识别的统计机器学习模型中,提高了模型的识别效果。本文研究了词向量特征、二值化词向量特征、词向量聚类特征和布朗聚类特征等四种词表示特征,结合条件随机场方法构建弱监督的藏文人名识别模型。针对相关研究反映的词向量特征和二值化词向量特征在部分任务中失效的情况,创新性地提出了词表示特征的采样策略。实验表明,词表示特征能够有效表示人名实体的语义信息,将监督式统计模型的F1值由88.66%提高到91.90%。词表示特征的采样能更好地利用词向量特征和二值化词向量特征,并将模型的训练时长分别降低了约90%和50%。采用结合主动学习和自学习的方法,基于未标注语料和小规模标注语料构建弱监督的藏文命名实体识别学习模型,降低了语料标注成本。本文研究了最小置信度、最大正则化对数概率和内容相似度等三种主动学习采样策略,实现了基于主动学习的藏文命名实体识别模型;然后在主动学习模型的基础上融入基于置信度的自学习采样策略,构造了结合主动学习和自学习的弱监督藏文命名实体识别模型。实验表明,较之于藏文命名实体识别的监督式统计机器学习模型,在不损失模型性能的前提下,主动学习方法能够降低约74%的语料标注量,结合主动学习和自学习方法能够降低约77%的语料标注量。因此,结合主动学习和自学习的方法能够有效降低语料标注成本,并且较之主动学习方法具有一定的优势。