面向专业领域的多头注意力中文分词模型——以西藏畜牧业为例

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:zhongtuo97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专业领域语料往往比通用领域语料涵盖更多未登录词,如西藏畜牧业领域语料包含大量直接音译或者合成的人名、地名、牲畜名、牧草名等未登录词,是造成分词准确率低的最主要原因。针对该问题,该文提出面向专业领域的多头注意力机制中文分词模型,该模型把字向量表示的语句作为输入,利用双向门控循环神经网络与多头注意力机制学习字向量的上下文语义特征及它们之间的关系特征;为了让模型关注重点字向量之间的依赖关系及切分点信息,引入多头注意力机制,在不考虑字向量之间距离的前提下并行计算重要字向量与其它字向量的相关度,关注重要字对模型的贡
其他文献
巩固脱贫攻坚成果,推动乡村振兴,离不开法治保障.具体到农村法律援助工作领域,就是要让更多农民群体享受到依法治国的红利,提升援助质量.本文就新时期农村法律援助工作的困境
目前方面级情感分析方法主要利用注意力机制来实现句子与方面词的交互,然而该机制容易导致方面词与句子中各词的错误搭配,引入额外噪声。针对此问题,该文提出了一种基于特征双重蒸馏网络的方面级情感分析方法。首先利用BiLSTM提取句子中各词的上下文语义特征,并结合基于上下文的方面词嵌入方法,获取方面词的语义特征。进一步地,利用门控机制构建双重蒸馏门,通过初步蒸馏与精细蒸馏两个过程实现句子与方面词的语义特征交互,获取与方面词相关的句子情感语义特征。最终利用Softmax对获取的情感语义特征进行情感分类。在通用的Lap
在自然语言处理领域,全局注意力机制通过考虑编码器的所有隐藏状态来捕获信息,从而帮助预测结果。然而在理解汉语成语这种复杂的语言现象时,模型往往会因特定语境的干扰而产生错误的决定和认知。因此,为了使模型更好地感知成语在不同语境下的语法功能,该文提出了一种增强型的全局注意力机制,通过对每个位置空间产生额外的注意因子来调整原始的全局注意力,最终提高了模型对特定语义的学习能力。该文将增强型全局注意力机制与BERT语言模型相结合,设计了一个用于完形填空任务的模型,并在最近发布的中文成语完形填空数据集ChID上进行了实
近几年来,随着改革开放的国策进一步推进,我国对内改革工作尤其是农业生产改革的步伐从未停止.我国高度重视“三农”问题,为促进农业进一步转型发展,推进基层农机管理的普及
随着新媒体环境的进一步深化落实,各类新媒体平台和自媒体等为人民群众了解社会时事和新闻信息带来了越来越多的便利,就使传统新闻类电视节目的发展弊端愈加凸显.本文简单阐
随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点。该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型。该模型将阅读理解任务划分为四个子模块:文本编码模块、答案抽取模块、答案分类模块和支持句子判别模块。此外,该文提出了一种基于TF-IDF的“问题-文章句子”相似度匹配的数据增强方法。该方法对中国法研杯2019的训练集进行重新标注,实现数据增强。通过以上方法,最终该集成模型在2020中国法研
西藏,令人向往之地。它是墜落在茶马古道上的明珠,天苍苍,野茫茫,风吹草低见牛羊。它虽没有大海的波涛汹涌,却有着绿色的生机盎然。这幅瑰丽的画卷在日光下徐徐展开,一望无垠的天空飘荡着棉花般的白云,似乎探手可及;山峦连绵起伏,阳光在山间跳跃,戏谑着草原的牛羊;当天色渐暗,蔚蓝天幕忽挂白玉盘,星光暂藏,黄蓝相映成趣。所有的自然元素在这里集合,汇聚成一幅无可比拟又巧夺天工的油彩画。这里的璀璨,这里的浩瀚,这
期刊
由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务。基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文本语义信息,最后融合两种模型提取到的信息完成文本分类任务。为验证该模型的有效性,该文分别采用中文、英文和维吾尔文短、长文本数据集进行实验,实验结果表明,该模型在多个分类任务中取得的性能都高于
建筑本身就是美丽的。四川广安清溪口渠江大桥,它有巍峨之美、刚毅之美、线条之美、光影之美、金色之美,点缀沃野江河,连接渠江两岸。大自然把清溪口渠江大桥装扮得如诗如画,云雾缭绕、霞光弥漫、金光闪闪、若隐若现,宛若仙境。151米高的大桥高塔高耸出云层,蔚为壮观,气势磅礴;朝霞照在金色拉索上,闪烁金光,美如画卷。  这组照片综合运用了无人机航拍和相机手机拍摄,提前看好天气预报,选择有云雾阳光时候拍摄。每次
期刊
文本蕴涵识别是对两个文本之间语义关系的有向推理,而词汇的词义对理解文本的语义以及推理文本之间的语义蕴涵关系有着重要作用。因此,为了有效利用词汇的词义信息推断文本之间的语义蕴涵关系,该文提出一种融合词义信息的文本蕴涵识别方法。该方法首次提出将原始的词汇转化为对应的目标词义,然后利用词汇的词义信息改善文本的语义表示和文本间语义关系的推理。实验表明,该文所提出的方法可以有效改善文本间语义关系的推理,从而提升文本蕴涵识别的准确率。