基于轻量级三维卷积神经网络的视频行为识别研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hejiashuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和智慧城市的发展,视频资源日渐丰富,基于视频的行为识别受到大家的广泛关注,其应用场景包括视频监控、视频审核以及智能安防等。最新的研究趋势是采用3D卷积神经网络进行视频行为识别,然而其增加的时间维度极大加重了模型的计算负载,使其难于应用终端设备。另一方面,视频行为识别模型与图像识别模型相比,更迫切得需要时序全局信息,因为它要求模型所提取出的行为特征具有整体连贯性和显著性,即要符合视频行为具有连贯动作与关键动作的现实特点。
  为了实现在资源受限场景下的视频行为识别,完成了下列创新工作:(1)设计3D全分离卷积,并基于3D全分离卷积构造轻量级3D卷积神经网络模型XwiseNet。主要创新点在于3D全分离卷积是基于可分离卷积的思想设计的在视频的通道维、时间维和空间维上独立提取特征的轻量级3D卷积,将其与高效的骨干网络框架相结合,最终获得了轻量级3D卷积神经网络模型XwiseNet。(2)根据视频行为识别对时序全局信息的需求,基于时序全局信息对XwiseNet进行优化。具体工作是构建了一个时序全局信息模块TGCBlock,将其与XwiseNet相结合,得到TGC-XwiseNet模型,该模型能够建立全局依赖关系,把握行为目标的整体行为状态和关键动作点,从而提高行为识别的准确率。
  在三个经典数据集上的广泛实验验证了本文所提出的模型在轻量化与高准确率方面的有效性。在多个数据集上,与绝大多数主流的模型相比,在准确率相当的情况下,参数量降低54.42%以上,计算量降低36.29%以上;在Kinetics-partA数据集上,基于时序全局信息对XwiseNet优化后,准确度提高了4.8%。
其他文献
发动机燃用天然气-柴油双燃料取代纯柴油是解决能源短缺和降低排污染的有效措施.该文分析了双燃料发动机的发展水平与现状,研制了进气管混合器式燃料供给系统、进气管阀喷射式燃料供给系统及阀喷射式电子控制喷气系统,并分别装机进行了性能试验.在整机性能特别是废气排放方面将混合器式和阀喷气式双燃料发动机与原柴油机进行了全试验分析对比,特别对燃料发动机采用不同混合器、不同供气方式以及废气再循环时的排放特性进行了分
列车自动驾驶(Automatic Train Operation,ATO)技术与整个铁路系统的运营效率及性能密切相关,是轨道交通领域的研究热点之一。目前,对于ATO技术的研究主要集中在两个方面:目标速度曲线的优化和对优化曲线的跟踪控制。在综合考虑节能性、准点性、舒适性及安全性等指标要求计算生成目标速度优化曲线后,设计高性能的列车速度跟踪控制策略,实现高速列车对目标曲线的精确跟踪,就成为达到列车运行
学位
为了确保不同种易燃危险物体以及延伸管道结构的安全性,本文提出了由超声波导和微控制器建立的管道防火控制系统,并对其可行性进行分析。如今,用于监测泵站外部延伸管道部分的消防安全设备还十分稀少,这正是本研究主要解决的关键问题。文中对已有的设备结构进行详细分析与对比后,选定由柔性耐热线制成的超声波导为敏感元件,并使用物理现象驻波作为该监测器的工作原理。本文制定了技术规范,创建了电气结构和电气功能图,并在此
用户通常通过应用市场获取Android应用来满足生活娱乐需求,现有大量为Android用户提供应用下载服务的第三方应用市场。为争取用户,应用市场通常对进入市场的应用进行严格的审查,尽可能让用户获取安全的应用。为提高用户使用体验,各大应用市场急需一套自动化的方案来避免应用中出现一些影响用户体验的流氓行为,例如诱导用户点击和下载应用的流氓广告,不能正常关闭的流氓弹框和干扰用户的流氓悬浮窗等。  目前应
学位
推荐系统在各大在线服务中具有广泛的应用场景,它的作用在于基于用户的兴趣为其推荐相匹配的项目,提升用户体验的同时也为系统带来更多的收益,实现用户与系统的双赢。基于深度学习的推荐算法是一个热门的研究方向,这些方法将特征映射为低维度的隐向量,但它们无法精准的衡量隐向量之间的相似关系。推荐系统中的信息之间存在关联关系,依据这些关系可以构建出图网络。采用网络表示学习方法可以提取图中的非结构化信息,丰富特征隐
学位
Android系统占据了智能终端系统的大部分份额,吸引了恶意应用开发者,对用户构成安全威胁。现有检测方法主要判断恶意代码存在性并分析恶意家族。然而,混淆技术会改变应用特征,恶意开发者利用该技术,生成恶意应用混淆变种,可以绕过现有检测方法,显著降低检测准确性。  针对Android恶意应用混淆变种,设计和实现了一种高效且抗混淆的Android恶意应用检测系统AOMDroid。针对不同混淆技术,AOM
学位
在互联网时代,各大网站充斥着海量文本信息。问答型情感分析任务旨在从电商评论、微博动态、知乎问答等用户交互的问答对中,挖掘其情感态度。  目前问答型情感分析任务的处理方法,会将问题和回答文本切分为不同句子,对每个句子单独编码,忽略了句子之间的联系,造成了信息损失。为了解决这个问题,提出了分层循环注意力(Hierarchical Recurrent Attention, HRA)模型,在文本切分后,使
学位
动态环境下无人机的路径规划就是在复杂环境下为无人机规划出一条从出发点到目标点的最优航线,应考虑环境中动、静态限制因素,搜索空间的指数级增长会带来非常大的计算消耗,为了降低计算消耗成本,现有方法将动态的限制因素在一定的规则下转为静态因素。针对动态栅格环境,首先设计了扩展层次图(Extended Hierarchical Graph,EHG),将目标环境的动、静态限制因素数据转换为对应每个栅格的可通行
学位
随着社交网络的快速发展和全球定位系统(GPS)的出现,人们越来越倾向于在位置社交网络(Location-based Social Networks,LBSNs)上以签到的形式分享他们的日常生活和旅游体验,兴趣点(Point-Of-Interest,POI)推荐则是快速发展的LBSNs中最重要的服务之一。在考虑签到行为周期性的基础上,时间感知的POI推荐旨在为给定的用户在一天中的指定时间推荐该用户未
随着社会的发展进步,各类高新技术、产品不断面世、落地、推广,人们的生活越来越便利,而支撑着这一切的关键便是电能。研究设备运行参数的异常检测技术,以保证电厂机组设备安全、可靠地运行,具有十分重要的现实意义。对电厂设备运行参数的异常检测,即使用设备在正常工况下的运行参数建立模型,要求该模型能识别出设备运行时发生的异常,尽早发现设备的劣化趋势,为故障诊断提供可靠的依据。  首先,提出了结合特征强化的深度
学位