基于结构先验的多媒体张量学习

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ycdyjlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体数据的有效表达是实现其语义理解和分类识别等应用一个基础性难点问题。多媒体数据的张量表达能有效避免传统基于向量或矩阵等形式的表达方法在高维多媒体数据上产生的“维数灾难”现象,并且能够保留多媒体数据中固有结构关系。本文在传统张量表达基础上引入多媒体数据中的结构先验,来提高多媒体数据的分析能力,并将其应用于多媒体分类和检索。这一研究的基本思路在于将多媒体数据的类别、稀疏、非负和隐结构等先验引入张量学习,从而得到更具鉴别性的张量表达。  本文的创新性工作如下:  对传统逻辑回归方法进行了拓展,本文将其从向量空间拓展到张量空间,提出了一种基于张量的逻辑回归方法,称为逻辑张量回归(LTR)。为了防止逻辑回归中的“过拟合”现象,本文利用一个先验概率分布来提高模型参数的稀疏性。LTR不仅能够有效地利用多媒体数据中固有的结构信息,并且通过引入稀疏选择机制,能有效防止“过拟合”。  将最大间隔的约束融入张量分解,本文提出了一种监督非负张量分解的方法SNTFM2在分解的同时进行分类。实验研究证明非负的约束对于处理非负的数据是十分必要的。SNTFM2扩展了传统的非负张量分解方法,通过加入最大间隔的约束使之成为一个监督分解方法。该方法将张量数据的近似(线性叠加的基的组合重建)和最大间隔约束(鉴别性)结合起来,使之能有效地利用张量数据中非负的特性以及监督信息。此外,本文设计了一个分组更新的算法,因此算法具有高效性。  对于难以显性定义的先验结构,本文从概率图模型这一角度提出了最大间隔概率张量分解方法(STF),其有效利用类间-类内的结构化隐性知识进行张量学习。该方法是一个鉴别—生成式模型,可被构造成一个包括概率推理和ε-不敏感支持向量回归的联合优化框架。由最大间隔概率张量分解学到的特征表达不仅可保留图像数据的多视角结构信息,还保留了从最大间隔学习过程中产生出来的有鉴别力的信息。此外,本文还将该方法拓展到不同类型的多媒体数据上。  针对关系型多媒体数据,本文提出了利用关系数据中监督信息的张量学习方法(SetF)。基于关系的多媒体数据如知识图谱能更好地理解用户语义,为用户搜索提供更深、更广的信息。提出的SetF具有生成-鉴别的属性,可以发现多关系数据中保持最大间隔约束的隐表达,使得隐表达具有鉴别性。提升了对关系数据的检索和分类效果。  综合应用上述基于结构先验的多媒体学习方法,本文提出了一个多媒体知识图谱展示原型系统。用户可以在该系统中,全面、直接、便捷地了解多媒体的属性与关系。
其他文献
视觉跟踪是计算机视觉中最基本的问题之一,在多媒体领域中有着广泛的应用需求,比如监视、车辆导航、人机交互等等。近年来,随着深度学习及其相应硬件条件的发展,单目标视觉跟踪任
日常生活和工作中,不管是个人还是企业,每个月都要收到各种催款单,包括公用事业的定期缴费、非公用事业的定期缴费、不定期的账单、还有逾期账单等等。目前这些账单的付费方式,有
视频监控系统由于其直观性、实时性、易保存回放等特点,广泛应用于电信、银行、学校、工厂等部门。近年来,结合网络、多媒体和存储技术的发展,使得视频质量、监控范围、存储能力
现代物流的日益增长对集装箱码头的货物周转速度提出了更高的要求。为此,必须提高装卸集装箱岸吊的运行速度,以达到提高码头货物周转效率的目的。迄今已经出现了很多集装箱卡车
本课题研究的内容是IP-PBX中ENUM支持机制的设计与实现,目的是实现IP-PBX间的安全高效互通。近年来,随着企业通信的迅猛发展,作为企业通信门户的IP-PBX,尤其是嵌入式IP-PBX以
随着网络技术发展和网络应用的日益多样化,传统互联网体系结构中网络控制灵活性不足、网络资源利用率低等刚性技术弱点逐渐凸显,为此迫切需要找到一种能使网络需求与资源有机适
近年来,机器学习技术在人脸识别、物体检测、步态识别等各类模式识别问题上得到了广泛且卓有成效的应用。由于现实世界的复杂性,机器学习模型需要从极其凌乱的数据中挖掘出感兴
As the whole world is going informatized, all the industries are struggling to gettheir business automated by means of computers for small to medium business an
纹理合成技术是计算机图形学的一个主要研究方向,因为其实用、简便的特性使得它在许多领域有着重要的作用,尤其近几年来,随着CG产业和在线游戏的快速发展,对于高效及高质量的纹理
计算机动画一直是计算机图形学领域的一个研究热点,影视特效的发展以及电子游戏的强力需求进一步推动了这一方向的研究。然而,真实世界蕴涵着复杂的运动规律,而计算机图形学领域