论文部分内容阅读
随着传感技术的发展和人类社会生活的需要,视觉传感设备在自动化生产、交通监控、安全防护等众多领域得到了广泛的应用。但由于人力资源的局限性,视觉传感设备产生的大量影像数据无法得到及时、快速、准确的解析处理,从而严重制约了其在实际场景中的利用水平。因此,如何从视觉传感器得到的影像数据出发,自动对数据包含的场景内容进行有效解析是计算机视觉领域的热点问题。基于视觉影像数据的场景内容解析是对视觉传感设备获取的图片或者视频序列,通过机器学习、模式识别等方法对场景中的语义目标,如道路、行人、车辆等的位置和区域进行判别。该研究内容的相关理论和方法在学术研究和工业应用上均具有重要价值。在学术领域,场景内容解析可以为底层感知理论提供任务导向指导,同时也可以为高层任务,如行为分析、事件检测等提供丰富的场景语义信息。在工业领域,场景内容解析可以为汽车辅助驾驶、交通监控分析等任务提供算法支撑。近年来,随着机器学习和计算机相关技术的发展,场景内容解析取得了较好的发展,但仍然存在如下问题:1)视觉影像数据的高效表征问题;2)语义对象关系的准确建模问题;3)场景内容解析的鲁棒决策问题。针对上述存在的问题,本文从四个方面对视觉影像数据下的场景内容解析的理论和方法展开研究,主要研究内容和创新点如下1:1)基于在线边缘结构学习的局部场景内容解析。针对语义对象外观变化问题,前人工作较少对模型进行更新,本文使用了在线模型学习框架提高模型对场景变化的适应能力;针对传统分类学习中的结构关系考量不充分问题,本文采用结构分类模型对样本关系进行建模;针对训练集的选取在分类模型性能中的关键作用,本文针对性地选取困难样本更新判别模型,有效提升了模型的判别性能。2)基于区域多层级概率分析的局部场景内容解析。针对原始影像存在的噪声影响和数据流形结构分布特性,引入了拉普拉斯稀疏子空间方法对语义区域进行中层表征;考虑到场景本身具有尺度信息特性,引入多尺度处理策略提升语义对象区域决策效果。在此基础上,本文在贝叶斯框架下同时对多层级特征,即底层特征和中层特征进行建模,有效提升了模型对复杂场景的解析能力。3)基于上下文分析和困难样本增强的全局场景内容解析。针对语义对象间的上下文关系建模问题,本文在利用条件随机场对局部上下文建模的基础上,构建了金字塔多层级上下文模型,同时使用结构分析方法对不同尺度的解析结果进行融合;针对不同语义对象大小不同,导致训练样本不均衡而产生的困难样本学习问题,本文根据样本特性,在模型训练过程中对损失函数进行加权,从而有效缓解了困难样本检测精度低的问题。4)基于轮廓和自适应网络结构的全局场景内容解析。针对语义对象的属性存在较大的差异性,对不同的语义对象进行相同的推理计算会导致模型退化的问题,提出了基于自适应深度结构的卷积神经网络模型,缓解了不同语义对象解析精度差异大的问题,从而有效提升了场景内容解析精度;针对场景解析任务中语义对象边缘区域存在的歧义现象,提出了基于轮廓感知的卷积神经网络,有效提升了场景边缘位置的解析精度。