融合多策略数据增强的低资源依存句法分析方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:Air8712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依存句法分析旨在识别句子中词与词之间的句法依赖关系.依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能.训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型过拟合问题.文中针对低资源依存句法分析问题,提出了多种数据增强策略.所提方法通过同义词替换有效扩充了训练数据,缓解了未知词问题.通过多种Mixup的数据增强策略,有效缓解了模型过拟合问题,提高了模型的泛化能力.在(Universal Dependencies treebanks,UD treebanks)数据集上的实验结果表明,所提方法有效提升了小规模训练语料条件下泰语、越南语和英语依存句法分析的性能.
其他文献
空间距离连接是空间数据分析最基本的操作之一,具有广泛的应用场景.针对现有分布式方法的空间域选取过大、数据倾斜、自连接较慢的问题,提出了一种新的面向海量空间数据的分布式距离连接算法JUST-Join.首先,JUST-Join仅选取必要的空间区域作为全局域,能够提前过滤数据,减少无效的数据传输和不必要的计算开销;然后,同时考虑了参与连接的两个数据集的分布,从而缓解了数据倾斜问题;最后,针对自连接情形的冗余计算,采用平面扫描算法来进一步提高效率.文中使用Spark实现了JUST-Join算法,并利用真实的数据集
学分银行是以实行学分制为前提,针对学习者的各类学习成果,进行统一认证、累积与转换的管理制度.学分的认证、累积与转换是学分银行的核心功能,“贷分”不应成为学分银行应有之作用,应当从合理设计制度框架,科学认定、有效累积学分,以及确保学习成果的优质转换等方面出发,科学规划、合理构建学分银行制度体系,努力推动终身学习型社会的建设与形成.
针对线性回归、SVR以及大部分多变量回归树等回归模型不能直接利用分类型属性进行回归分析的问题,提出了一种可联合多种类型属性的决策树结点划分方法.该方法通过定义样本集合在分类型属性上的中心以及样本到中心的距离,使得分类型属性也可以像数值型属性一样参与样本的聚类过程,从而形成样本集的划分.之后,文中又为由该方法产生的决策树选择了合适的集成方案,生成的集成器被称为聚类回归森林(CRF).最后,在12个UCI公开数据集上对比CRF与其他9个回归模型的回归平均绝对误差(MAE)和均方根误差(RMSE),实验结果表明
在高校思想政治教育课程体系中,思政课、通识课、专业课既相互区别、又相互统一.在构建新时期“大思政”教育课程体系中,需要推动三类课程有机融合、协调发展,构建协同育人的思想政治教育课程体系,从而更好地整合教学资源,发挥立德树人的功能.
本文主要介绍一种利用电磁铁吸取减速顶调整垫的工具,该工具结构简单,使用方便快捷,在调整减速顶安装高度的维修作业中,能极大地节省时间和体力,提高维修作业效率.
高庆狮院士于2006年发表《新模糊集合论基础》专著,为消解模糊逻辑系列悖论进行逻辑理论基础探索;并于2009年在科学出版社发表《统一语言学基础》专著,为多语言计算前沿构造理论基础支撑.这两部专著在他的创新理论基础研究中为传世瑰宝.在悼念高庆狮院士逝世10周年之际,文中利用最新向量逻辑——变值体系,来展现在高老师的研究方向中元知识系统体系架构建模的最新进展.从向量逻辑出发,综合共轭结构、元知识模型以及各类新型处理机制,在现代逻辑和数学中判定一个复杂系统是否包含经典逻辑悖论,对保证该类系统能否存活起到核心判别
高职院校中青年中层干部队伍建设对学校事业发展和人才培养工作具有重大意义.从历史和现实的视角分析,高职院校中青年中层干部队伍目前存在结构不合理、政治素质不强、业务能力不高、担当意识不足等问题,与新时代高职院校“双高计划”建设的目标要求存在一定差距.因此,需要通过全面提升理论素养、提高思想政治工作水平、补齐能力素质短板、坚持正确的用人导向、完善监督考核机制等路径,探寻破解新时代高职院校中青年中层干部队伍困境的有效策略,为高职院校高质量发展提供坚实的队伍保障.
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务.在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法.近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量.使用wav2 vec预训练可以减少神经网络对数据量的依赖,提升系统的性能.使用wav2 vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提
在传统密码学应用中,人们总假定终端是安全的,并且敌手只存在于通信信道上.然而,主流的恶意软件和系统漏洞给终端安全带来了严重和直接的威胁和挑战,例如容易遭受存储内容被病毒破坏、随机数发生器被腐化等各种攻击.更糟糕的是,协议会话通常有较长的生存期,因此需要在较长的时间内存储与会话相关的秘密信息.在这种情况下,有必要设计高强度的安全协议,以对抗可以暴露存储内容和中间计算结果(包括随机数)的敌手.棘轮密钥交换是解决这一问题的一个基本工具.文中综述了密码本原——棘轮密钥交换,包括单向、半双向和双向等棘轮密钥交换的定
高职院校“双高计划”建设社会满意度调查从满意度理论、发展性评价性理论和生态位理论出发,总结社会满意度调查对于“双高计划”建设的重要意义,并以高水平学校的10项建设任务和高水平专业群的9项建设任务为调查对象,分析在校生、毕业生、教职工、用人单位和家长对各个建设任务的满意度量化值.通过综合分析各方需求,提出“双高计划”应始终坚持以学生为中心、打造高水平双师队伍、服务经济社会发展、注重内涵质量建设的发展理念,推动建设任务动态优化,为新时期高等教育的发展与改革提供新视角,彰显职业教育的内在价值.