论文部分内容阅读
多媒体数据的有效表达是实现其语义理解和分类识别等应用一个基础性难点问题。多媒体数据的张量表达能有效避免传统基于向量或矩阵等形式的表达方法在高维多媒体数据上产生的“维数灾难”现象,并且能够保留多媒体数据中固有结构关系。本文在传统张量表达基础上引入多媒体数据中的结构先验,来提高多媒体数据的分析能力,并将其应用于多媒体分类和检索。这一研究的基本思路在于将多媒体数据的类别、稀疏、非负和隐结构等先验引入张量学习,从而得到更具鉴别性的张量表达。 本文的创新性工作如下: 对传统逻辑回归方法进行了拓展,本文将其从向量空间拓展到张量空间,提出了一种基于张量的逻辑回归方法,称为逻辑张量回归(LTR)。为了防止逻辑回归中的“过拟合”现象,本文利用一个先验概率分布来提高模型参数的稀疏性。LTR不仅能够有效地利用多媒体数据中固有的结构信息,并且通过引入稀疏选择机制,能有效防止“过拟合”。 将最大间隔的约束融入张量分解,本文提出了一种监督非负张量分解的方法SNTFM2在分解的同时进行分类。实验研究证明非负的约束对于处理非负的数据是十分必要的。SNTFM2扩展了传统的非负张量分解方法,通过加入最大间隔的约束使之成为一个监督分解方法。该方法将张量数据的近似(线性叠加的基的组合重建)和最大间隔约束(鉴别性)结合起来,使之能有效地利用张量数据中非负的特性以及监督信息。此外,本文设计了一个分组更新的算法,因此算法具有高效性。 对于难以显性定义的先验结构,本文从概率图模型这一角度提出了最大间隔概率张量分解方法(STF),其有效利用类间-类内的结构化隐性知识进行张量学习。该方法是一个鉴别—生成式模型,可被构造成一个包括概率推理和ε-不敏感支持向量回归的联合优化框架。由最大间隔概率张量分解学到的特征表达不仅可保留图像数据的多视角结构信息,还保留了从最大间隔学习过程中产生出来的有鉴别力的信息。此外,本文还将该方法拓展到不同类型的多媒体数据上。 针对关系型多媒体数据,本文提出了利用关系数据中监督信息的张量学习方法(SetF)。基于关系的多媒体数据如知识图谱能更好地理解用户语义,为用户搜索提供更深、更广的信息。提出的SetF具有生成-鉴别的属性,可以发现多关系数据中保持最大间隔约束的隐表达,使得隐表达具有鉴别性。提升了对关系数据的检索和分类效果。 综合应用上述基于结构先验的多媒体学习方法,本文提出了一个多媒体知识图谱展示原型系统。用户可以在该系统中,全面、直接、便捷地了解多媒体的属性与关系。