论文部分内容阅读
近年来,交通运输业发展势头迅猛,基于计算机视觉的交通监控系统的应用日趋普及,相应的大数据处理、分析与利用等问题成为研究者们关注的重点。基于机器视觉的图像语义理解作为一种新兴的前沿技术,通过收集目标检测和跟踪等底层视觉技术提供的信息为行为识别、事件搜索等高层视觉任务提供分析和推理,在交通图像处理系统中起承上启下的作用。在车辆辅助驾驶系统中,基于深度表征学习的交通场景语义理解是以所有交通参与者为对象,以理解场景内容为核心,研究图像内容的表达,其重点是为交通参与者提供车辆与行人的行为分析和场景内容描述,具有重要的研究价值。交通场景语义理解的本质是研究视频信息到文字描述信息的转换问题。该技术主要依靠检测到的交通监控信息对当前交通场景中的车辆特征、行驶状态、行人行为及道路环境等进行语义描述。本文针对交通场景语义理解及描述过程中遇到的诸多问题,在大量分析国内外相关文献的基础上,通过研究机器视觉与自然语言处理领域的关键技术,围绕智能监控系统的实际应用展开相关研究,旨在提高交通场景下图像语义理解算法的准确性、鲁棒性,使其能够满足智能交通监控系统的实际需要。具体开展的研究主要有:1.对基于时空兴趣点的目标检测方法进行讨论分析,并通过改进时空兴趣点实现人体行为的准确检测。复杂交通场景下的行人与车辆检测受到物体遮挡、背景杂乱、视角移动以及光线变化等因素的影响,一直是图像处理领域具有挑战性的课题。为了解决算法中存在的问题和不足,将多尺度信息引入兴趣点检测中,通过应用局部空间环绕抑制、时间约束及尺度自适应等方法,减少背景杂点的产生,提高目标检测的准确性。最后通过人体行为识别实验来验证和改善检测器的鲁棒性,同时抑制背景杂点的产生,提高检测器的性能。2.针对交通目标检测与识别过程中普遍存在尺度变化、背景杂乱、物体遮挡等问题,以及基于深度学习的目标检测算法在进行区域选择时滑动窗口遍历搜索耗时问题,提出一种基于改进时空兴趣点的交通目标感兴趣区域检测算法。通过应用时空兴趣点优化、多目标动态聚类及感兴趣区域构建等方法,提高了目标检测算法面对复杂交通场景时的鲁棒性。此外,由于模型只计算感兴趣区域内的特征,因此还减少了模型的计算时间,提高了交通目标检测的实时性。3.对基于深度学习的图像语义理解算法进行研究。针对图像语义理解模型在生成图像描述语句时遇到的主体目标选择模糊、冗余语句干扰以及对现实场景还原度低等问题,提出一种基于人类视觉注意力机制的图像语义描述方法。该算法通过对包含多种目标的复杂场景进行筛选,为语义模型产生准确且接近人类语言习惯的图像描述语句提供引导。基于刺激驱动的注意力机制源于视觉的独特性、不可预测性以及歧义性。该算法首先对图像中的特定区域进行注意力条件选择,然后根据区域选择结果进行注意力资源分配以及图像特征编码,最后将带有权重分布的图像特征输入语言模型中解码并生成图像描述语句。4.对基于机器视觉与自然语言处理的图像问答系统框架进行研究。针对问答系统模型结构相对简单,模型在回答问题时存在注意力偏差以及缺乏关系推理能力等问题,提出一种基于多目标关系检测的图像问答系统模型。首先对目标检测模型以及目标关系判定模型进行预训练,获得目标外观关系特征及目标之间的关系谓词。然后利用问题中所包含的单词引导注意力指向图像中的对应区域。最后,将图像外观关系特征与文本问题一起通过非线性转换到统一的向量空间,利用词向量相似性原理产生对应的答案。实验结果表明该方法能够有效增强图像特征与文本问题之间的关联性,在验证数据集上取得了较为理想的成绩。5.对长视频语义描述算法进行研究。针对长视频在进行内容分析与事件搜索时计算量大,事件定位不准确的问题,提出一种新的长视频语义理解算法。通过应用冗余视频帧检测、长视频超帧分割,关键帧选择等方法,将长视频转换为能够代表视频内容的文本摘要,在提高语义描述准确度的同时,减少了模型的计算搜索时间。综上所述,本文通过对基于机器视觉的目标检测方法以及基于自然语言处理的文本描述方法进行深入研究与分析,针对交通场景语义理解过程中遇到的目标形变、相似性干扰、遮挡、光线变化以及复杂目标关系等问题提出一系列解决方案,在对交通场景中的行人,车辆等目标进行准确检测的基础上,进一步实现了对交通场景的内容表达和客观解释。最后,梳理了文章的主要工作,对全文进行总结,并对下一步的工作进行展望,提出下一阶段需要重点研究的内容。