论文部分内容阅读
感兴趣区域,ROI(Region Of Interest),一般是指物体的边缘、角点、拐点、纹理较为丰富的区域,而且这部分区域对观察者理解图像的影响较大。基于感兴趣区域的视频压缩优化一直是研究的热点。近年来,视频交互系统在互联网上广泛应用,这使得人脸作为重要的感兴趣区域被引入到相关的研究之中。
在基于感兴趣区域的编码优化的相关研究中,主流的研究流程包含感兴趣区域的分割、跟踪和编码优化三个方面。
本文提出了基于人脸的多层感兴趣区域模型(Multilevel Face-Based ROI Model)分层次定义感兴趣区域,模型按照主观质量重要性从大到小将图像区域分为眼口核心区CR(eye-mouth coreregion)、脸部轮廓区PR(profile region)、边界区ER( edge region)及背景区BR(background region)。
在基于人脸的多层感兴趣区域模型的理论基础上,本文提出了相应的图像分割方法。该方法利用经典的单峰高斯模型计算肤色相似度,利用自适应二值化方法和四步过滤操作来定位精确的人脸候选区域。同时,我们使用一种基于色度的方法来定位嘴巴区域,并提出了改进的眼模板匹配方法来定位眼睛区域,相比原来的方法,眼睛定位更加精确。在人脸区域、眼睛和嘴巴区域都获得以后,我们将画面进行基于多层感兴趣模型的区域划分。
接着,本文提出了一种结合视频编码技术的快速前景跟踪方法。利用运动估计匹配准则中的失真模型定义轨迹矢量的匹配准则,找到主要轨迹矢量方向和主要轨迹矢量半径,从而得到主要轨迹矢量,并以此作为参考帧前景(人脸区域、眼、口区域)的运动轨迹,从而预测当前帧多层感兴趣区域的位置。
然后,本文在JVT-G012码率控制提案的基础上,提出了针对多层感兴趣区域的码率控制算法。该方法在帧层和基本单元层两个层次上实施了码率分配调整和步长调整策略,并使用了三步平滑策略以达到视觉上的连续性。
对于上述三个阶段的详细实验结果显示,本文提出的方法能很好地划分、跟踪画面的多层感兴趣区域,并在进行了相应的编码优化之后,采用本文方法的整体平均PSNR值在JM8.6的平均PSNR值附近上下小幅波动,但基于本文方法ROI区域的PSNR值比JM8.6平均高了0.5db,同时图像在ROI区域的处理比JM8.6要细致许多。
最后,本文介绍了我们的研究成果在视频互动访谈系统中的应用情况。