论文部分内容阅读
场景理解是基于视觉计算的智能视频监控中的难点问题和最终目标,具有非常重要的研究意义。传统智能视频监控研究的对象主要是目标检测与分类、目标跟踪、目标匹配及目标识别等。随着智能视频监控应用的发展,人们对从自然场景中直接获取语义信息的需求越来越迫切,因此以这些传统技术为基础来研究面向智能视频监控的场景理解技术变得刻不容缓。本论文以当今社会生活中迫切需要的人群管理为应用背景,同时考虑实际应用中全时段监管的需求,研究面向人群监管的智能视频场景理解技术。主要目标是解决以下三个问题:如何对夜景中夜色去除以满足低照度条件下全时段场景理解的需求;如何实时高精度获取复杂场景中人群数量语义信息;如何快速有效获取复杂场景中人群异常事件和场景地点等语义信息。本论文的主要贡献如下:(1)针对全时段人群监管的夜色去除问题,提出了基于彩色图像的夜色去除算法。传统的全时段监管工作多是使用红外摄像机所获取的红外图像,直接对普通彩色图像进行夜色去除算法的研究工作非常少,针对这个难题,我们首先对夜晚到白天的颜色转换形式化建模,提出了一种颜色预估模型。基于这个模型,我们分别提出了融合颜色预估与稀疏表示固定场景夜色去除算法和融合颜色预估与边缘增强的普适场景夜色去除算法。实验结果表明无论是夜色去除后主观的视觉效果还是客观的图像质量评价指标都有了显著的提高。(2)针对复杂场景的人群计数问题,提出了基于情境驱动深度与彩色信息融合的人群数量统计算法。传统的工作绝大部分都仅仅单独使用彩色信息来进行人群的流量统计,无法解决复杂人群场景中遮挡严重和光照不断变化的问题。针对这个难题,我们融合使用了深度和彩色信息。在自适应识别当前摄像机监控视角的基础上,分别提出了基于可伸缩模板匹配的斜视角人群计数算法和场景自适应的垂直视角人群计数算法。实验结果表明我们的方法不仅能实时运行,同时精度上与现有最好的基于彩色信息的人群计数方法相比也有了明显提升。(3)针对面向人群监管的场景语义理解问题,提出了基于统计学习加权分类的场景地点语义获取算法、基于轨迹起止点聚类与运动模式匹配的人群异常事件语义获取算法。目前还很少有针对场景地点理解的工作,针对这个难题,我们在基于标注样本训练的场景聚类基础上,根据统计学习得到的分类权重先验对场景地点进行加权分类。针对在多种场景中同时有效识别人群异常事件的难题,我们将基于光流和轨迹聚类提取的运动模式作为人群异常判断的唯一标准,对日常规律性人群异常事件通过与预定义运动模式是否匹配来判断,对非规律性人群异常事件则通过与场景自主学习得到的运动模式是否匹配来判断。实验结果证明了该方法能有效地理解场景地点和异常事件,所获得的场景地点、目标类别和异常事件等语义可以转化为文本输出。(4)面向人群监管场景理解原型系统的设计与实现。为了验证本文算法有效性,我们设计并实现了面向人群监管的场景理解验证系统,目标是实现对公共场所的大规模人群有效监管。通过在该系统上的大量实验表明,本文提出的方法能够有效地获取监控视频场景中的语义信息,所获取的信息可以直接应用于基于语义的海量视频检索工作中。该系统可广泛应用在智慧城市、智慧监狱和智能交通等众多领域。