论文部分内容阅读
近几年,在多媒体和互联网技术飞速发展的推动下,视频由于包含丰富的内容,已逐渐成为信息表达和传播的主要形式。截至2015年12月,我国互联网视频用户数目达到5.04亿,其中得益于移动终端计算能力的升级和网络带宽的改善,手机视频用户数目已突破4.05亿。据统计,互联网上每分钟全球产生约7.5PB数据,其中约90%是视频和图像,并且这个数量还在持续增加。在如此大规模的数据中,在有限带宽和计算成本的约束下,通过高效视频检索快速准确地获取所需要的信息,对信息社会各个领域都具有深远的影响。视频哈希技术作为实现视频检索的核心技术之一,已受到国内外研究学者的关注。本文首先从探索图像的可记忆性特征着手,验证了基于视觉关注的特征对表征图像的可记忆性具有有效性;然后,将这种可记忆性特征应用于视频内容的表征中,提出了一种基于可记忆性的视频哈希算法;最后,考虑到目前视频哈希算法中哈希码长的不可知性,提出了一种视频哈希中的码长预测算法。本文的主要创新和贡献在以下三个方面:(1)探索了视觉关注对图像可记忆性的影响。关于图像可记忆性的研究核心之一是探索能够预测图像可记忆性的有效特征。现阶段的研究主要着眼于不同的表观特征对可记忆性的影响,而本文则是在已讨论过的特征之外,探讨视觉关注对可记忆性的影响。我们认为,表观特征是视觉刺激角度的特征,它反映了图像在被视觉理解的过程中对视觉产生的刺激,而人眼的视觉接受信息应该是受到刺激后的反应,视觉关注模型恰好模拟了人在表观特征刺激下的视觉注视行为。因此,通过视觉关注模型获取的视觉关注特征,被认为是视觉反应角度的特征,它在表征图像内容上已表现出良好的性能。该研究所提取的基于视觉关注的特征对表征图像的可记忆性具有有效性。(2)提出了一种基于可记忆性的视频哈希算法。该算法是作为基于表观特征和视觉关注特征的哈希算法之外的补充。因为之前的研究已经表明基于视觉关注的空间直方图特征对预测图像的可记忆性具有有效性,在此定义该特征为可记忆性特征,然后用可记忆性特征来表征视频内容信息。其中,视觉关注图是通过检测视频片段中的视觉显著度来构造的,然后从视觉关注图中检测出三个不同的局部视觉显著区域。计算得到视觉显著区域的空间直方图特征,也就是可记忆性特征,同时运用基于核的监督哈希方法将可记忆性特征转化为哈希。实验结果表明,这种基于可记忆性的哈希算法对视频哈希具有有效性。(3)提出了一种视频哈希中的码长预测方法。此方法能够在海量数据集的环境中,仅通过部分数据的训练就确定全部数据集中近似最佳的哈希长度,为哈希长度的确定提供了一种更快捷且有参考依据的方式。本文不仅对基于视觉关注的图像可记忆性进行了研究,而且将研究结果应用于视频哈希算法中,提出了一种基于可记忆性的视频哈希算法。这主要是从特征提取的角度对视频哈希进行研究,特征不仅包含了刺激视觉的表观特征,还融合了感知层和记忆层的促进人认知的特征。另外,提出了一种视频哈希中的码长预测方法,为大数据环境中哈希长度的确定提供了一种有依据的参考方式。综上,对视频内容进行有效的哈希表示,不仅在理论上有利于海量视频的高效检索,而且可实际应用于公共安全、视频网站、移动搜索等领域。