基于上位词关系图谱的标签映射的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:candry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来短视频领域十分火热,发展迅猛。各个视频平台每天都有大量的PGC和UGC短视频被生产、分发和消费,为了更好地实现平台内容运营,实现精准的内容分发,提高用户体验,需要为每个短视频快速、准确地打上语义标签。为了解决人工手工标注带来的效率低下和积压问题,自动化标注技术成为各大平台都在致力于发展的技术。深度学习技术在计算机视觉领域获得的巨大成功为短视频的自动标注提供了新的技术解决方案。这种技术可以准确地识别出视频中出现的一些客观具象的事物,但对一些主观抽象的东西识别准确度较低。因此,结合实际数据集从算法的角度考虑,在使用深度学习方法训练短视频自动标注模型的时候,采用了大规模、细粒度的类别标签。然而,实际业务中使用的标签是针对业务需要给出的,有些热门的标签是细粒度的,但多为一些粗粒度的、抽象的标签,所以需要把算法模型给出的算法标签映射到业务标签。另外,我们还注意到实际使用的这些类别标签缺乏科学的组织与管理,多为一些离散、孤立的语义类别结点,没能充分利用这些标签结点之间的语义关系,由此造成标签的冗余和混乱。考虑到ImageNet使用WordNet中的语义节点作为其图片的类别标签,从而把一个个扁平、孤立的语义类别标签组织在一个具有上下位关系的语义网下,实现了图片标签在语义网下的定义、管理和扩展。我们借助近年来比较火的知识图谱和自然语言处理技术,以中文百科数据为主,构建一个基于上位词关系的通用图谱,利用图谱中的实体和概念结点以及结点之间的语义关系实现短视频类别标签的定义、组织,实现短视频分类标签在上位关系和同义关系下的扩展。我们利用图谱中标签结点之间的上位语义关系实现短视频分类模型算法标签到业务标签的映射。本文根据实际业务背景需求主要进行了如下工作:1.百科数据的采集与解析,主要针对中文百度百科,从中抽取所需的词条实体信息,并对抽取的词条数据进行数据清洗;2.结合多种方法完成实体和概念上位关系的获取,主要有基于百科的方法、基于中心词的方法、基于Magi搜索引擎的方法。这些方法相互补充,从而达到较好的上位关系抽取效果;3.结合使用最新的自然语言处理预训练语言模型技术,采用分段线性投影模型对获取的部分上位关系进行语义关系验证;4.标签实体的消歧和共指消解,主要用来解决把原始算法标签和业务标签链接到我们所构建的图谱中对应的正确实体和概念节点。标签实体消歧用来解决同名不同义的问题,即一个实体名对应于图谱中多个意义不同的实体。标签共指消解用来解决同义问题,即存在多个实体名称对应于图谱中的同一实体;5.使用Neo4j图数据库、Django框架、Echarts可视化框架等技术设计并实现一个图谱和标签管理系统,完成短视频分类模型算法标签到业务标签映射的功能。
其他文献
在无线通信中,中继系统(Relay)可以满足数量较大的用户在一片区域内共享一定数量的信道,中继理论在蜂窝无线系统中也有很大的作用。现有的中继系统进行视频传输时多数使用传
农业作为我国国民经济发展的根本,年来,着信息科技的发展,已经从当初自给自足的小农经济渐成为今天规模化的产业经济。尤其是,着几年物流和电商在国家的扶持下发展起来,更是为农产品打开了路,使得农业产业化规模越来越明显。现如今,区域内的农业经济发展已经离不开物流业的发展,因此,对区域内农业和物流业经济协同发展的研究就变得更加要。而山东省作为我国农业发展大省,农业总产值续10年位居全国第一,种植业、林业、牧
国风音乐是近年来一个繁荣现象,它不仅涉及自身传播与发展,同时对繁荣中国传统文化,以及引领、塑造民众传统文化认同具有重要价值与意义。本文从涵化理论、使用与满足理论及文化认同理论出发,探究了用户收听国风音乐对传统文化认同的影响。在前人对媒介接触使用与文化认同研究的基础上,建构研究模型,将国风音乐收听动机作为自变量,用户收听行为作为中介变量,传统文化认知、情感及行为意向作为因变量,通过SPSS和AMOS
伴随着人们的环境保护意识不断提高和新能源技术的发展,锂离子电池作为储存电能的载体,以其寿命长,无记忆性,体积小,能量密度大等优点,倍受人们的青睐。当前锂离子电池已经被广泛用于电动汽车,通信储能,航天器储能以及新能源储能等领域。由于单体锂离子电池在单独使用时存在电压等级低、容量小等劣势,一般需要将多节锂离子电池串联起来使用。由于锂离子电池的个体差异,导致锂离子电池组在使用过程中会出现单节电池被过充或
教师话语是课堂中学生语言输入的重要来源,而教师支架性话语作为教师话语的一种,能增加学生语言输出的机会、丰富语言输出内容和提升学生自主学习能力,因此如何提高教师支架
因路面异常造成的交通安全事故是道路安全问题中不容忽视的一环。路面凹陷、路面颠簸以及路面障碍物等路面异常不仅会对人们的生命安全构成直接威胁,同时还会给人们的正常出行带来不便。如果在人为驾驶或者自动驾驶过程中,汽车系统能够及早检测到路面的异常状况,就可以及早提醒驾驶员做出相关反应或者汽车自动做出相应反馈,这样在辅助驾驶或者自动驾驶场景中,就可以减少道路安全隐患。因此,对驾驶场景下路面异常检测算法的研究
低信噪比水声信号检测是当前水声领域研究的热点,也是水声领域一直亟待解决的技术难题之一。为实现水下目标的远距离探测,本文针对水声目标弱信号检测问题,展开了基于相位特性的长时间累积信号处理方法研究,具体工作如下:首先针对运动目标接收信号的特征进行了分析。通过建立匀速运动目标运动过程的数学物理模型,表明了接收信号的多项式相位特征。推导了接收信号时间项的系数与运动目标参数的关系。通过仿真,表明了长时间累积
课堂话语通常是指教师和学习者在正式课堂环境中所产生的言语与非言语的行为。一般认为,课堂话语存在三种模式:学生沉默的课堂话语(教师大部分时间都在说话,只偶尔提问)、教
铁路是我国交通系统中十分重要的一部分,随着近年来科技的迅速发展,出现了新的运输方式,且运输市场的竞争变得越来越激烈,如快递业快速崛起出现在人们的视野中,其便捷性、快速性和行程可观测性,深受人们的喜爱。在庞大的运输市场中,铁路货运具有运输种类丰富,且可以承载大批量的货物的特点,但是其准点性难以保证,这使得其在市场中的竞争力减弱,同时也对铁路资源造成了浪费,所以在对铁路货运车辆运到时限的研究方面变得尤
企业信用作为现代市场经济下的产物,是市场经济中不可或缺的一种经济中介服务,也反映了各类市场参与主体履行相应经济契约的能力。而企业信用评价是对企业自身的可信程度进行的一种综合分析与测定。现有的企业信用评价平台提供的企业信用数据杂而少,无法方便且准确地为企业信用评价提供良好的数据保障,因此,解决这类问题这也是本文所设计的面向企业信用评价的数据获取子系统的需求与目标。论文以实验室工程项目面向企业信用评价