基于弱监督学习的藏文命名实体识别研究

来源 :中央民族大学 | 被引量 : 1次 | 上传用户:myhome1202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是藏文信息处理的基础性和关键性任务之一,藏文命名实体识别就是从藏语文本中发现并分类命名实体,其效果会影响后续的藏文信息抽取和信息检索等任务的性能。当前,藏文命名实体识别以监督式统计机器学习方法为主。传统的特征工程依赖于语言专家的知识和经验抽取命名实体的浅层统计特征,难以表示命名实体的语义信息,而扩大训练集的规模又面临着人工标注语料成本高昂的问题。因此,基于小规模的标注语料构建高性能的藏文命名实体识别模型具有重要的研究价值。本文研究了基于弱监督学习的藏文命名实体识别,主要工作如下:通过未标注文本学习词的分布表示,构造词表示特征表示词的语义信息,加入到藏文人名识别的统计机器学习模型中,提高了模型的识别效果。本文研究了词向量特征、二值化词向量特征、词向量聚类特征和布朗聚类特征等四种词表示特征,结合条件随机场方法构建弱监督的藏文人名识别模型。针对相关研究反映的词向量特征和二值化词向量特征在部分任务中失效的情况,创新性地提出了词表示特征的采样策略。实验表明,词表示特征能够有效表示人名实体的语义信息,将监督式统计模型的F1值由88.66%提高到91.90%。词表示特征的采样能更好地利用词向量特征和二值化词向量特征,并将模型的训练时长分别降低了约90%和50%。采用结合主动学习和自学习的方法,基于未标注语料和小规模标注语料构建弱监督的藏文命名实体识别学习模型,降低了语料标注成本。本文研究了最小置信度、最大正则化对数概率和内容相似度等三种主动学习采样策略,实现了基于主动学习的藏文命名实体识别模型;然后在主动学习模型的基础上融入基于置信度的自学习采样策略,构造了结合主动学习和自学习的弱监督藏文命名实体识别模型。实验表明,较之于藏文命名实体识别的监督式统计机器学习模型,在不损失模型性能的前提下,主动学习方法能够降低约74%的语料标注量,结合主动学习和自学习方法能够降低约77%的语料标注量。因此,结合主动学习和自学习的方法能够有效降低语料标注成本,并且较之主动学习方法具有一定的优势。
其他文献
炮长瞄准镜是坦克观瞄系统的重要组成部分,以积木式结构安装在坦克内部,具有观察、搜索、瞄准目标的功能。其精密度高,结构复杂,仅依靠专业人员的维修经验进行检测维修很难保
由于磷光发射金属配合物中心原子对其d轨道具有强的自旋轨道耦合,这使得配合物的单线态激子和三线态激子混合,能使其内量子效率达到100%,远远大于荧光材料25%的最大内量子效
电磁感应加热技术具有能耗少、加热快、无污染等优点,广泛地应用于冶金、炼钢等工业生产中。热连轧是典型的钢铁生产工艺,其基本步骤是以初轧板坯为原材料,经加热、粗轧机轧
航天三菱4K发动机是为应对各种环保措施和排放法规研发的新型发动机。其中,4K缸盖作为发动机的最核心零件,其生产工艺涉及众多核心技术及关键工艺,存在燃烧室座圈导管加工、
突水是威胁矿山安全生产的重大灾害之一,矿山突水同时具有高速非达西流特征和流场动力学统一性特征。基于流体质量守恒和压力平衡原理建立了耦合Darcy方程、Forchheimer方程
目前,有机无机杂化甲胺碘化铅钙钛矿(CH3NH3PbI3)因有与太阳光谱匹配的直接带隙(1.5 eV)成为性能优良的光电材料。但基于钙钛矿平面化结构的光电探测器往往具有较大的电滞、较慢
GaN基高电子迁移率晶体管具有耐高压、耐高温、高功率密度、工作频率高等特点,是具有前景的电力电子器件之一。自GaN HEMTs诞生以来,经过近30年的发展,出现了商用化产品并成
随着人类海洋活动的日益频繁,人们对海上宽带通信的需求也越来越大。当前海上无线通信系统存在带宽窄、速率低、成本高等问题,无法满足现代海上互联网通信业务的需求,人们迫
近年来,资产价格跳跃现象已成为金融研究的热点,本文通过方差互换检验方法,对沪深股市300只成分股15年间的股票交易数据进行分析,根据公司的股票市值、账面市值比、动量及非
合成是引入和推进功能材料或设备不同特性的常用方法。随后,有各种技术,结合两种或多种材料,形成一个统一的多功能/复合系统。虽然混合有机金属卤化物环丙基(OMHPs)主要被探索