论文部分内容阅读
随着移动互联网的高速发展,人们能够轻易地获取到海量的信息,而这些信息的载体也越来越多样,包含了文本、图片、视频和音频等各种形式,这些形式多样的信息便构成了多模态数据。如今,传统意义上的单模态数据检索如以文搜文已经不能满足人们的需求,用户往往希望通过某一种模态的数据检索出更丰富的信息,如以图搜文、音频、视频等。因此,越来越多地研究注意力转移到跨模态检索。由于哈希方法具有存储空间小和计算速度快的优势,这与检索任务的要求十分契合,所以将其与跨模态方法结合起来是十分有意义的。本文结合语义保护和关联挖掘对跨模态哈希算法进行了研究,主要工作包括:(1)本文整理了传统跨模态哈希方法并选取其中具有代表性的四种算法进行分析,运用控制变量的思想,分别对它们从算法框架、回归方法、迭代方法和再生成哈希码四个角度探讨了这些策略对最终检索结果的影响。同时得出了一系列结论,为后续工作提供了指导性意见。(2)本文提出了一种基于三重矩阵分解的跨模态哈希算法。多模态数据中不同模态数据的维度往往并不相同,目前大多数跨模态算法都采用等长哈希码表示它们,但这难免会对其中某些模态的数据的表达精度有所损害。同时,多模态数据中还存在着大量的不成对数据,这部分数据很少被关注。针对这两个问题,本算法利用三重矩阵分解为不同模态的数据学习不同长度的哈希码表达,同时还通过语义关联矩阵为不成对数据学习哈希码表达。实验证明,该算法能够高效地处理各种应用场景:等长哈希码跨模态检索,不等长哈希码跨模态检索,成对数据跨模态检索,不成对数据跨模态检索,单模态检索等。(3)本文提出了有监督一致自编码模型以及一系列的变种模型。该算法使用两个独立的自编码模型来分别为不同模态的数据学习特征表达。同时,通过标签信息的引入,使得所学习的特征更加具有判别性。该算法原本为实值算法,为了将其与哈希算法结合起来,本文尝试性地在隐藏层之上加入了一层哈希层,并取得了一定的效果。(4)针对多模态数据中的不成对数据,本文提出一种三重融合网络哈希模型。不同于以往的双流模型结构,该模型使用融合网络同时处理多模态数据,弥补了双流网络结构中网络之间关联性较弱的问题,实现了同时使用损失函数约束和网络结构挖掘模态间关联性。同时,通过零补全操作的引入,该模型能够同时处理成对数据和不成对数据,还解决了融合网络中常见的主导领域问题。实验证明,该算法能够有效地处理成对和不成对数据集,同时对多模态数据中的成对关系约束也没有过度的依赖。