基于多任务学习的短文本实体链接方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:nixiangtama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接是明确文本中实体指称的重要手段,也是构建知识图谱的关键技术,在智能问答、信息检索等领域中具有重要作用,但由于短文本的上下文语境不丰富、表达不正式、语法结构不完整等特点,现有的短文本实体链接方法准确率较低.提出一种新的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中,从而增强短文本实体链接方法的效果.在此基础上,构建多任务学习模型,将短文本实体链接作为主任务,并引入实体分类作为辅助任务,促使模型学习到更加通用的底层表达,提高模型的泛化能力,优化模型在短文本实体链接任务中的表现.在CCKS2020测评任务2提供的数据集上的实验结果表明,辅助任务的引入能够缓解短文本实体链接过程中信息不充分的问题,且该多任务学习模型的F值为0.8949,优于基于BERT编码器的单任务实体链接模型.
其他文献
软件缺陷预测可以有效提高软件的可靠性,修复系统存在的漏洞.Boosting重抽样是解决软件缺陷预测样本数量不足问题的常用方法,但常规Boosting方法在处理领域类不平衡问题时效果不佳.为此,提出一种代价敏感的Boosting软件缺陷预测方法CSBst.针对缺陷模块漏报和误报代价不同的问题,利用代价敏感的Boosting方法更新样本权重,增大产生第一类错误的样本权重,使之大于无缺陷类样本权重与第二类错误样本的权重,从而提高模块的预测率.采用阈值移动方法对多个决策树基分类器的分类结果进行集成,以解决过拟合问
行人重识别的目标是利用计算机视觉技术在多个摄像头采集的图像序列或视频中识别目标行人,基于监督学习的行人重识别算法虽然提高了目标的识别性能,但难以解决行人重识别中无标注目标域的域内变化问题,从而导致无标注数据检索准确度低.提出一种基于域自适应的无监督行人重识别算法,其主要由ResNet-50骨干网络、跨域特征提取器和用以存储目标域特征的特征库组成.通过跨域特征提取器融合行人样本在特征图与通道方向的特征,以挖掘不同行人重识别数据集间潜在的特征关联关系,同时为无标注目标数据集样本内的特征关联构建特征库,在无任何
YOLOv3检测算法中的边界框回归损失函数对边界框尺度敏感,且与算法检测效果评价标准交并比(IoU)之间的优化不具有强相关性,无法准确反映真值框与预测框之间的重叠情况,造成收敛效果不佳.针对上述问题,提出基于IoU的改进边界框回归损失算法BR-IoU.将IoU作为边界框回归损失函数的损失项,使不同尺度的边界框在回归过程中获得更均衡的损失优化权重.在此基础上,通过添加惩罚项最小化预测框与真值框中心点间围成的矩形面积,并提高预测框与真值框之间宽高比的一致性,从而优化边界框的回归收敛效果.在PASCAL VOC
手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用.针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法.通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重叠率规则的整合以及连笔切分,得到一系列字符片段,同时利用笔画个数、宽高比、中心偏离、平滑度等几何特征和识别置信度,对字符片段进行中英文分类.在此基础上,根据分类结果并结合自然语言模型的路径评价及动态规划搜索算法,分别对候选的中、英文字符片段进行合并处理,得到待识别的中、英文字符序列,并将其分
为满足大规模脉冲神经网络(SNN)的计算需求,类脑计算系统通常需要采用大规模并行计算平台.然而随着节点数量的增多,通信在仿真中所占比例大幅增加,导致计算效率下降.类脑模拟器开源软件NEST采用缓冲区大小相等的策略,有效缩短了通信时间,但是由于缓冲区互相无交流,使得通信数据量持续增加,因此其在能耗方面表现较差.分析NEST集群的负载特性,针对其中的通信问题进行稀疏性优化,提出基于SNN子图跨节点优化的神经元重分布算法ReLOC.通过优化SNN子图的跨节点分布减少每一轮神经元到进程的数量,从而减少跨节点脉冲,
现有的立体匹配算法通常采用深层卷积神经网络提取特征,对前景物体的检测更加精细,但对背景中的小物体及边缘区域匹配效果较差.为提高视差估计质量,构建一个基于视差优化的立体匹配网络CTFNet.分别提取浅层与深层特征,并基于深层特征构建全局稀疏代价卷,从而预测初始视差图.在预测的初始视差图和浅层特征的基础上构建局部稠密代价卷并进行视差优化,以细化预测视差值邻域的概率分布,提高特征不明显区域的匹配精度.此外,引入新的概率分布损失函数,监督softmax函数计算的视差值概率分布在真实视差值附近成单峰分布,提高算法的
影像拼接是生成大规模数字正射影像的关键技术之一,但现有的影像拼接方法在进行多个影像拼接时存在拼接线穿过明显地物导致的鬼影现象.光流是观察者和场景间相对运动引起的影像边缘等的相对运动,其中,大光流对应影像间的变化区域,可用于检测正射影像间的明显地面区域.提出一种基于光流引导的新型影像拼接方法,通过超像素的密集光流提取影像中明显的地物信息,以避免接缝穿过明显的地面物体.采用由粗到细的接缝线优化策略,并在超像素级别上利用Dijkstra算法进行最佳拼接区域检测,从而提高接缝线检测的效率.在此基础上,结合归一化互
通用视频编码标准H.266/VVC通过引入多种新的编码技术,如仿射运动补偿预测、自适应运动矢量精度、多核变换等,以支持360°视频和HDR视频的编解码,从而为用户提供最优的视频质量,但是在H.266/VVC帧间预测过程中,仿射运动估计计算复杂度高导致编码时间显著增加.针对该问题,提出一种改进的仿射运动估计算法.通过对仿射高级矢量预测(AAMVP)候选列表的构建过程进行改进,并构建一种AAMVP候选列表候选项筛选准则,使得列表的候选项更接近编码块真实的运动矢量,从而缩短编码时间.同时对仿射运动估计中迭代搜索
大气散射模型与有雾图像及对应清晰图像间的映射模型不适配,导致使用大气散射模型进行图像去雾处理时,图像存在颜色偏差、纹理细节粗糙等问题.基于模拟生物视觉系统的反馈原理,提出一种端到端的循环生成对抗网络算法,以解决误差累积造成的去雾图像低质的问题.通过生成模块将循环神经网络的隐藏状态作为反馈信息,以指导低级模糊特征信息生成更加丰富的高级特征.循环结构能够保证先前的网络层可以使用到后面网络层的高级特征信息,从而减少误差累积.此外,该算法能够根据判别模块的损失来评估重建图像的质量.实验结果表明,与GCANet算法
在场景文本检测领域,存在由于文本尺寸波动较大导致的小文本漏检、大文本欠检测和多尺度文本边界检测错误的情况.针对上述问题,提出一种基于学习主动中心轮廓模型的场景文本检测网络.在残差网络ResNet的基础上构建多尺度特征权重融合模型,对输入的场景文本图片进行多尺度特征提取和权重融合,并计算出最终的特征融合图,适应场景文本长宽比变化较大的情况.在此基础上,将融合后的特征图输入到学习主动中心轮廓模型预测文本框的中心点和边界,该模型为场景文本检测提供丰富先验知识,以解决多尺度文本检测框包含过多背景或部分包围文本造成