基于弱监督学习的藏文命名实体识别研究

来源 :中央民族大学 | 被引量 : 1次 | 上传用户：myhome1202

【摘要】

：

命名实体识别是藏文信息处理的基础性和关键性任务之一,藏文命名实体识别就是从藏语文本中发现并分类命名实体,其效果会影响后续的藏文信息抽取和信息检索等任务的性能。当前

【作者】

：

孙朋

【出处】

：

中央民族大学

【发表日期】

：

2020年01期

【关键词】

：

藏文命名实体识别弱监督学习词表示特征结合主动学习和自学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

命名实体识别是藏文信息处理的基础性和关键性任务之一,藏文命名实体识别就是从藏语文本中发现并分类命名实体,其效果会影响后续的藏文信息抽取和信息检索等任务的性能。当前,藏文命名实体识别以监督式统计机器学习方法为主。传统的特征工程依赖于语言专家的知识和经验抽取命名实体的浅层统计特征,难以表示命名实体的语义信息,而扩大训练集的规模又面临着人工标注语料成本高昂的问题。因此,基于小规模的标注语料构建高性能的藏文命名实体识别模型具有重要的研究价值。本文研究了基于弱监督学习的藏文命名实体识别,主要工作如下:通过未标注文本学习词的分布表示,构造词表示特征表示词的语义信息,加入到藏文人名识别的统计机器学习模型中,提高了模型的识别效果。本文研究了词向量特征、二值化词向量特征、词向量聚类特征和布朗聚类特征等四种词表示特征,结合条件随机场方法构建弱监督的藏文人名识别模型。针对相关研究反映的词向量特征和二值化词向量特征在部分任务中失效的情况,创新性地提出了词表示特征的采样策略。实验表明,词表示特征能够有效表示人名实体的语义信息,将监督式统计模型的F1值由88.66%提高到91.90%。词表示特征的采样能更好地利用词向量特征和二值化词向量特征,并将模型的训练时长分别降低了约90%和50%。采用结合主动学习和自学习的方法,基于未标注语料和小规模标注语料构建弱监督的藏文命名实体识别学习模型,降低了语料标注成本。本文研究了最小置信度、最大正则化对数概率和内容相似度等三种主动学习采样策略,实现了基于主动学习的藏文命名实体识别模型;然后在主动学习模型的基础上融入基于置信度的自学习采样策略,构造了结合主动学习和自学习的弱监督藏文命名实体识别模型。实验表明,较之于藏文命名实体识别的监督式统计机器学习模型,在不损失模型性能的前提下,主动学习方法能够降低约74%的语料标注量,结合主动学习和自学习方法能够降低约77%的语料标注量。因此,结合主动学习和自学习的方法能够有效降低语料标注成本,并且较之主动学习方法具有一定的优势。

其他文献

炮长瞄准镜故障诊断专家系统的研究

炮长瞄准镜是坦克观瞄系统的重要组成部分,以积木式结构安装在坦克内部,具有观察、搜索、瞄准目标的功能。其精密度高,结构复杂,仅依靠专业人员的维修经验进行检测维修很难保

学位

炮长瞄准镜故障诊断专家系统故障树减法聚类KMP模式匹配

基于咪唑并五元杂环衍生物为配体的铱（Ⅲ）配合物磷光材料的合成及性能研究

由于磷光发射金属配合物中心原子对其d轨道具有强的自旋轨道耦合,这使得配合物的单线态激子和三线态激子混合,能使其内量子效率达到100%,远远大于荧光材料25%的最大内量子效

学位

Ir~Ⅲ配合物磷光材料吡啶并杂环

热轧板坯感应加热过程计算机仿真研究

电磁感应加热技术具有能耗少、加热快、无污染等优点,广泛地应用于冶金、炼钢等工业生产中。热连轧是典型的钢铁生产工艺,其基本步骤是以初轧板坯为原材料,经加热、粗轧机轧

学位

板坯感应加热边部补热ANSYS有限元模拟

4K缸盖自动化生产线关键工艺研究及论证

航天三菱4K发动机是为应对各种环保措施和排放法规研发的新型发动机。其中,4K缸盖作为发动机的最核心零件,其生产工艺涉及众多核心技术及关键工艺,存在燃烧室座圈导管加工、

学位

关键工艺研究座圈导管加工长斜油孔加工工件自动传输

矿山突水非达西流模型及初步应用

突水是威胁矿山安全生产的重大灾害之一,矿山突水同时具有高速非达西流特征和流场动力学统一性特征。基于流体质量守恒和压力平衡原理建立了耦合Darcy方程、Forchheimer方程

学位

破碎岩体非达西流突水Forchheimer方程紊流

有序CH3NH3PbI3纳米线与CdSe纳米带杂化材料的制备及其光电性能研究

目前,有机无机杂化甲胺碘化铅钙钛矿（CH3NH3PbI3）因有与太阳光谱匹配的直接带隙（1.5 eV）成为性能优良的光电材料。但基于钙钛矿平面化结构的光电探测器往往具有较大的电滞、较慢

学位

有序甲胺碘化铅钙钛矿纳米线硒化镉纳米带杂化光电特性器件

动态过程中GaN HEMT器件击穿特性研究

GaN基高电子迁移率晶体管具有耐高压、耐高温、高功率密度、工作频率高等特点,是具有前景的电力电子器件之一。自GaN HEMTs诞生以来,经过近30年的发展,出现了商用化产品并成

学位

增强型硅基GaN HEMT动态击穿沟道电子势垒降低反向阻断电流增大电场分布

海上宽带无线自组网路由协议的研究与实现

随着人类海洋活动的日益频繁,人们对海上宽带通信的需求也越来越大。当前海上无线通信系统存在带宽窄、速率低、成本高等问题,无法满足现代海上互联网通信业务的需求,人们迫

学位

海上宽带通信Ad Hoc网络A-AODV路由协议嵌入式软件

基于股票价格跳跃的检验及影响因子分析

近年来,资产价格跳跃现象已成为金融研究的热点,本文通过方差互换检验方法,对沪深股市300只成分股15年间的股票交易数据进行分析,根据公司的股票市值、账面市值比、动量及非

学位

股票市场价格跳跃证券投资组合跳跃回报

有机金属卤化物钙钛矿半导体/介孔聚乳酸基复合膜器件的压电性能—超声波振动的影响

合成是引入和推进功能材料或设备不同特性的常用方法。随后,有各种技术,结合两种或多种材料,形成一个统一的多功能/复合系统。虽然混合有机金属卤化物环丙基（OMHPs）主要被探索

学位

PLLA/PVDF/SnO2NF复合材料MAPbI3超声波振动压电应变常数中孔

基于弱监督学习的藏文命名实体识别研究

其他学术论文