论文部分内容阅读
随着互联网技术的快速发展及移动拍摄设备的全覆盖普及,以视频分享网站、新闻门户网站等为代表的各类网络平台已成为人们获取和传播信息的重要渠道。网络中的视频大数据与其他文本、图像等多种模态信息共存,并与人们现实生活密切相关,能反映真实世界中发生的热点话题及重大事件等,因此备受关注。如何有效地对这些跨媒体数据进行智能化分析理解与呈现,已成为计算机多媒体领域的重要研究内容。本文面向网络视频数据,结合多种相关模态信息,围绕跨媒体数据中关键信息的智能理解与呈现技术展开研究,针对视频镜头边缘检测、关键帧提取、网络视频缩略图生成推荐和跨模态网络话题检测中的一些具体问题,提出了解决方案。在网络视频的低层结构化分析方面,针对镜头边缘检测中的难点,即对占渐变镜头转换很大比例的Dissolve进行定位的问题,本文提出了基于图像质量评价的由粗到细的视频Dissolve检测方法。因为Dissolve的溶解混合模型变化不定、转换过程长短不一等而使得其难以被准确检测。该方法通过发现Dissolve呈现的“清晰-模糊-清晰”视觉感受模式及对应的视频帧图像质量上的“高-低-高”凹槽模式,采用图像质量评价、粗检得到候选Dissolve、长度归一化处理、基于SVM的细检确认等操作来得到Dissolve检测结果。在标准测试集上执行的测试实验证明所提方法是有效可行的。此外,针对视频关键帧提取中的关键帧数量难以动态自适应问题,本文提出了基于无监督合并聚类的关键帧提取方法。该方法无需先验参数,可避免阈值选择、聚类数目确定等传统问题。在网络视频的中层内容紧凑表示方面,本文提出了一种基于视觉内容感知的网络视频缩略图自动生成方法。为了解决现有视频缩略图生成中普遍存在的模糊不清、显著目标过小不易看懂、与视频主题内容缺少密切关联等问题,该方法充分考虑了缩略图生成性能评测的三大要素:图像质量、视觉易获取性和视频内容代表性,通过视频帧图像质量评估、基于视觉显著度计算的易获取性分析和基于视频帧相似度计算的内容代表性评价来得到更清晰直观、内容易见且具有较高视频主题内容相关性的有效网络视频缩略图。在多段网络视频上的测试结果及用户学习评价表明所提方法能够更有效的自动生成质量较好、符合应用需求的视频缩略图。在推荐网络视频缩略图时,除了要满足缩略图本身的质量需求外,对于视频上传用户(称为视频拥有者)和网络视频观看用户(称为视频浏览者)来说,他们由于认知的不同而对同一段视频的缩略图需求未必是一致的,因此,为了能够实现个性化的缩略图推荐,本文借鉴于前述的基于视觉内容感知的缩略图生成方法的研究思路,提出了一种融合视觉内容分析与用户查询匹配的网络视频缩略图的统一推荐框架。该框架通过图像质量评估、基于SVR的图像易获取性分析、基于互增强操作的视频内容代表性计算、融合用户检索意图的查询敏感匹配等过程来动态自适应地为视频拥有者和视频浏览者分别推荐有效的缩略图。一系列主观评测实验表明所提框架不仅能有效地动态推荐清晰易见且具有较高视频主题内容相关性的缩略图,还能在一定程度上弥补视频拥有者与浏览者在网络视频缩略图需求上的偏好差异,提升二者的用户体验。在高层的强语义表达的网络话题检测方面,本文面向网络视频、新闻报道文档等跨媒体数据,提出了一种融合视觉文本信息的跨模态网络话题检测方法。考虑到网络视频等跨媒体数据中固有的不均衡性和模态缺失等问题,以及网络话题内含的多粒度性、稀疏性和指导信息不足等特性,该方法充分利用网络视频及周边文本信息如标题、标签等和新闻报道文档中的标题、新闻图片等多模态信息,通过加权密集关键词组的粗检、文本连接、视觉连接、关键词组更新优化、密切相关文档的关联聚合等操作得到网络话题检测结果。在数据集CM-NV和MCG-WEBV上的多组实验表明所提方法能够胜任网络话题检测任务,并能充分利用多模态信息融合来达到信息互补、互为弱监督指导和互增强的目的,从而使得话题检测更精确、更全面。在得到网络视频的缩略图表示和网络话题关联的文档集合(由与话题密切相关的网络视频及新闻报道文档构成)后,就能利用这些线索来完成话题的可视化呈现,以较生动全面的组织形式来帮助用户便捷感知相关网络事件。