论文部分内容阅读
随着多媒体技术和网络技术的迅速发展,各种视频数据信息大量产生。如何有效地利用这些视频资源是一个亟待解决的问题。针对这个问题,视频标注工作通过赋予视频镜头或片段相关语义概念,来方便视频的索引和检索。过去由于视频数据量相对较小,视频的索引和检索通过基于人工标注关键词的方法来实现。目前视频数据量越来越大,对于视频的索引和检索需要借助对视频的自动分析来尽可能的减少人工参与的程度。因此,对视频的自动或者半自动标注可以有效利用视频资源提取有价值的信息。
体育视频是一种重要的视频资源类型。与一般视频相比体育视频中的语义事件定义较明确,并且体育比赛有特定的规则和转播方式。目前体育视频高层语义分析工作主要集中在比赛状态监测、精彩事件检测等,较少关注体育视频中的专业动作标注,一般仅使用底层视觉等特征对体育视频中人体专业动作进行标注,较难获得准确的标注结果。本文研究的内容是基于二维人体关节点特征对体育视频中的专业动作进行语义标注。以网球体育比赛视频为例探讨此方法。
本文主要贡献包括:
第一,提出一种基于音视频多特征融合的方法,检测网球比赛视频中运动员单个挥拍动作片段,以方便对视频内容的分析。其中分别使用连续隐马尔科夫模型检测击球声特征,自适应提升算法检测网球球场线,以及自适应模板匹配算法检测运动员位置,并融合这三种特征来实现检测目标。实验结果表明,采用多特征融合的方法可有效检测单个网球动作视频片段,检测正确率达到了97.6%。
第二,在前人工作的基础上研究视频图像序列中二维人体关节点特征的提取。采用图像割(graph cut)算法提取视频第一帧中人体轮廓,根据局部分类器模型跟踪视频后续帧中的人体轮廓,并使用形状上下文(shape context)方法从人体轮廓中提取二维关节点特征。实验结果表明所提取的二维人体关节点特征的误差较小。针对网球领域知识,建立基于二维人体关节点特征的动作知识库。用户给定待标注视频后,采用动态规划算法比较与动作知识库中视频之间的人体动作差异,并依据相似度将排序结果返回给用户。根据用户的反馈,采用协同训练算法实现对待标注视频的动作类型标注。实验结果表明,网球视频中专业动作标注正确率达到了81.4%。与现有网球视频动作标注算法相比正确率有较大提高。
本文方法适合像网球、羽毛球这类体育视频,其视频特点是较少发生运动员间互遮挡。在扩展到其它体育领域动作标注时,只需要建立相应的动作知识库,其中概念层根据体育动作类型建立分类划分,实例层则包含各个动作类型对应的动作视频。体育视频与一般视频相比具有语义事件定义较明确等特点,但是也与一般视频存在共同点,即视频的内容不受限制,并且视频底层特征与标注结果之间存在语义鸿沟。这导致了视频标注是一项非常困难的工作。本文的体育视频动作标注方法是半自动的,还存在着很大的改进空间,包括研究如何自动并且鲁棒地跟踪一段较长视频片段中的人体运动轮廓序列等。