基于感兴趣区域的视频编码优化研究及应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:willingqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
感兴趣区域,ROI(Region Of Interest),一般是指物体的边缘、角点、拐点、纹理较为丰富的区域,而且这部分区域对观察者理解图像的影响较大。基于感兴趣区域的视频压缩优化一直是研究的热点。近年来,视频交互系统在互联网上广泛应用,这使得人脸作为重要的感兴趣区域被引入到相关的研究之中。   在基于感兴趣区域的编码优化的相关研究中,主流的研究流程包含感兴趣区域的分割、跟踪和编码优化三个方面。   本文提出了基于人脸的多层感兴趣区域模型(Multilevel Face-Based ROI Model)分层次定义感兴趣区域,模型按照主观质量重要性从大到小将图像区域分为眼口核心区CR(eye-mouth coreregion)、脸部轮廓区PR(profile region)、边界区ER( edge region)及背景区BR(background region)。   在基于人脸的多层感兴趣区域模型的理论基础上,本文提出了相应的图像分割方法。该方法利用经典的单峰高斯模型计算肤色相似度,利用自适应二值化方法和四步过滤操作来定位精确的人脸候选区域。同时,我们使用一种基于色度的方法来定位嘴巴区域,并提出了改进的眼模板匹配方法来定位眼睛区域,相比原来的方法,眼睛定位更加精确。在人脸区域、眼睛和嘴巴区域都获得以后,我们将画面进行基于多层感兴趣模型的区域划分。   接着,本文提出了一种结合视频编码技术的快速前景跟踪方法。利用运动估计匹配准则中的失真模型定义轨迹矢量的匹配准则,找到主要轨迹矢量方向和主要轨迹矢量半径,从而得到主要轨迹矢量,并以此作为参考帧前景(人脸区域、眼、口区域)的运动轨迹,从而预测当前帧多层感兴趣区域的位置。   然后,本文在JVT-G012码率控制提案的基础上,提出了针对多层感兴趣区域的码率控制算法。该方法在帧层和基本单元层两个层次上实施了码率分配调整和步长调整策略,并使用了三步平滑策略以达到视觉上的连续性。   对于上述三个阶段的详细实验结果显示,本文提出的方法能很好地划分、跟踪画面的多层感兴趣区域,并在进行了相应的编码优化之后,采用本文方法的整体平均PSNR值在JM8.6的平均PSNR值附近上下小幅波动,但基于本文方法ROI区域的PSNR值比JM8.6平均高了0.5db,同时图像在ROI区域的处理比JM8.6要细致许多。   最后,本文介绍了我们的研究成果在视频互动访谈系统中的应用情况。
其他文献
数字化半色调是一种把连续调图像转化为半色调图像的技术,广泛地应用于印刷和照排系统中。误差扩散算法是实现上述转化的最主要算法。随着印刷等技术的发展,对数字化半色调的速
演化性是软件的本质属性。为适应Internet开放环境和用户需求的变化,系统需要能够动态调整自身。系统的动态演化能力作为衡量软件自适应性和灵活性的重要指标,已成为软件工程
不同于传统基因表达检测技术,高通量微阵列技术可以同时测量成千上万基因表达水平,为功能基因组学基因调控网路研究提供强大的技术支撑。关联分析方法用于分析微阵列数据集基
视频监控中的异常行为检测已经受到广泛关注,特别是在公共安全领域。随着视频资料膨胀式的发展,人为监控判断资料的异常已经不能够满足安全保障的需要。本文致力于解决视频监控
需求工程是软件开发中的一个重要阶段。需求工程分为需求获取、需求分析、需求规约、需求确认和需求管理五个基本活动。其中,需求获取是整个需求工程的开端,其输出制品的质量会
二十世纪九十年代以来,互联网逐渐深入到人们日常生活的各个方面,成为不可或缺的一部分。互联网流量识别是互联网流量测量领域的研究热点之一,在提供网络信息、保证服务质量等方
随着信息技术的高速发展和现代战争的需要,多传感器信息融合作为一门新兴交叉学科得到广泛关注。基于信息融合技术的目标识别已成为国内外研究的热点。如何快速、准确地对目
为了追求更高的精度,当前神经网络的研究朝着模型更复杂、训练数据规模更大的方向发展,这导致模型的训练部署更困难、训练时间急剧增长。怎样将大型神经网络模型在多GPU集群环
中文词法分析是中文信息处理的重要基础,汉语是没有自然分割的连续文本,古代汉语更是没有任何边界标志,我们现在所看到的文言文中的标点符号,都是后人为了方便人们阅读而添加的。
随着新兴的人工智能、HPC云、基于NVMe-over-Fabric的分布式存储、实时大数据分析等应用发展,RDMA技术正广泛应用于数据中心。通过传输层的硬件卸载及OS-bypass的数据路径,RDMA