论文部分内容阅读
立体视频处理一直是视频处理中的研究热点,它模拟人眼视觉系统原理,利用两台平行或会聚配置的摄像机对同一场景进行拍摄,得到两个通道的视频。通过建立摄像机模型,并对左、右视频进行视差估计,就可以得到场景的深度信息,由此可进行进一步的处理,例如场景重建,中间视角生成,基于物体的编码等。立体视频已经在工业和医学中有了广泛的应用。
平行摄像机配置由于能够使外极线与扫描线重合,提供了很多视差约束条件,包括外极约束、单向性约束、顺序约束和表面平滑约束等,可以很好的简化匹配模型。会聚摄像机配置能够提供更好的深度感知,但是在会聚角较大的情况下,必须先对图像进行校准。
立体匹配中主要需要解决occlusion区域的检测,对比度/反射系数差异,纹理缺失等问题。对这些问题建模的同时,也添加了新的约束条件。
本文实现了两种联合全局约束和局部约束的立体匹配算法:复合分级块匹配算法和联合特征、结构的网格匹配算法.对复合分级块匹配算法,本文在传统算法的基础上,优化了内存处理方式,并对块内匹配和最小值搜索使用汇编提高运算速度,同时还使用亚像素抛物线拟合和一致性约束来提高匹配准确度。在保证实时运算的同时,大大改善了块匹配算法常出现的块状效应。
对于联合结构、特征的网格匹配算法,本文给出了一种解决均一背景图像误匹配率大的方法,并提出了从稀疏视差场构建密集前景视差场的方法,较好的模拟了前景表面特征。
本文还实现了基于统计模型(能量)的前景、背景分割。通过引入图像标记的概念,在能量模型中整合入立体匹配、色彩和对比度信息,解决了单纯使用立体信息或单纯使用色彩/对比度信息时,对图像特征依赖性过大的问题。为了使能量最小化,本文提出了基于max-flow的搜索树算法,在一轮迭代(F扩展和O扩展)后就可以得到理想的结果,大大提高了计算速度,并获得很小的误分割率。