【摘 要】
:
随着互联网的高速发展,以及多媒体设备的普及,文字与图片作为重要的信息载体已经不能满足当前社会的需求,而视频逐渐成为信息传递的重要成员。在不同场景中有效地分析视频中的内容具有极大的应用价值,由于视频中存在着大量的序列图像,若仅将这些图像分别独立地分析将丢失原本存在于序列图像之间的关联信息,使得难以达到分析目的。为此,本文以序列图像作为基础、三维物体分类任务和动作行为识别任务为应用场景,分别提出有效地
论文部分内容阅读
随着互联网的高速发展,以及多媒体设备的普及,文字与图片作为重要的信息载体已经不能满足当前社会的需求,而视频逐渐成为信息传递的重要成员。在不同场景中有效地分析视频中的内容具有极大的应用价值,由于视频中存在着大量的序列图像,若仅将这些图像分别独立地分析将丢失原本存在于序列图像之间的关联信息,使得难以达到分析目的。为此,本文以序列图像作为基础、三维物体分类任务和动作行为识别任务为应用场景,分别提出有效地分类方法。本文的主要研究工作和成果包括:1.对于三维物体分类问题,本文提出了一个基于多视角序列图像的三维卷积神经网络(Multi-View Based 3D Convolutional Neural Network,MV-C3D),该网络把多视角序列图像作为一个联合变量进行计算处理,以提取它们之间的关联特征。同时,通过实验证明该网络在仅有部分视角图像的情况下,对其进行分类也能取得较好的分类效果。更进一步地,该方法在三维物体分类数据集上的性能超过了本文对比的大多数方法。此外,该方法还在模拟真实场景图像数据集Multi-view Images of Rotated Objects(MIRO)上表现优秀,达到了93.3%的分类准确率,证明了该方法的实际应用价值。2.对于动作识别问题,本文提出了一个多时长特征融合层(Multiple Duration Integration Layer,MDIL),该层由三个并联的卷积操作所组成,每个卷积核大小设置为不同,旨在提取不同时长信息的特征,使得该方法对于众多的动作数据有较强的鲁棒性。本文还在DenseNet的基础上提出DenseNet-3D模型用来实现动作识别,同时将多时长特征融合层嵌入到DenseNet-3D得到MDI-3D。实验结果表明,MDI-3D模型有着良好的动作识别性能。此外,本文还提出了一种三维卷积神经网络的预训练策略,经过该策略预训练的模型能够有效地减少后期在目标数据集上的训练时间,而且最终模型的分类性能要优于未采用该策略的模型。
其他文献
在信息过载时代,从大量信息中寻找自己感兴趣的信息是一件非常困难的事。推荐系统作为缓解这一问题的重要工具,可以从大规模数据中挖掘用户的偏好信息,从而向用户提供精确的个性化推荐服务。目前流行的推荐算法利用用户评分、评论等明确反映用户偏好的主观数据预测用户兴趣,但这类数据往往比较稀疏,会制约推荐算法的推荐质量。另外,如何动态捕获用户的偏好变化以及提高推荐的多样性也是推荐系统研究中亟需解决的问题。本文基于
近年来,实践中屡次发生侵犯借条的财产犯罪行为,在经济生活中,借条作为证明债权债务关系存在的凭证,代表一定数额金钱债权,由于经济的快速发展,财产犯罪的对象发生了一些改变
作为刑事被告人的一项基本人权,质证权的确立和实现有着不容忽视的重要价值和意义。西方法治国家和国际人权公约通常将其规定为一项宪法性权利和基本程序权利,能够体现被告人主体地位,是刑事被告人获得公平审判的最低限度的程序保障。相比于西方国家,我国宪法和刑诉法对被告人质证权均未明确规定,目前刑事审判实践中,没有将质证权确立为被告人的一项基本权利,更多是法庭用来查明案件事实的工具和手段。而通过对质证权进行实证
视频人体动作识别是计算机视觉领域中尤为重要的一名成员,它广泛应用在智能监控、视频检索和人机交互等领域,受到了很多研究学者的关注。随着深度学习在各个领域的渗透发展,研究学者将深度学习方法应用到视频人体动作识别中,但大多数算法在背景复杂、目标不单一和干扰较多的场景中的识别效果不尽人意。针对这些情况,本文围绕着计算机视觉研究的初衷—模拟人类视觉系统的信息处理机制,提出建立一个整合视觉注意机制与深度学习的
我国自古以来就是农业大国,农业的发展关系到人民的生活、社会的稳定和国家的长治久安。农业科学技术传播和发展是解决农业发展问题的根本途径,农业技术推广服务体系将“科学
定向问题(Orienteering Problem,OP)是一类特殊的NP-hard组合优化问题,其基本定义为:在指定的时间限制内有序的经过部分带有一定收益的点,使形成的路径最终获得的收益最大。
作为分布式人工智能的重要分支,多智能体系统能够把大而复杂的系统转化为小的,彼此相互通信的,易于管理的系统。近年来,多智能体系统在许多实际工程领域应用广泛,受到了国内外控制领域专家学者的极大关注。在多智能体系统协同控制中,一致性作为基础性问题更是成为关注热点。迭代学习控制以其能够在固定时间区间内完全跟踪期望轨迹的特点,被广泛应用到具有重复运行性质的多智能体系统的研究中。然而在实际多智能体系统的迭代学
随着市场竞争的加剧,并购成为许多企业提高竞争力的重要途径,然而很多企业由于缺乏资金使得并购计划只能搁浅,这种情况下便催生了“PE+上市公司”模式并购基金。该种并购基金由上市公司和私募合作成立,上市公司仅需出资较小份额,剩余资金则由PE进行筹集。通过这种运作模式,上市公司不仅减少了并购对企业资金的占用,还可以借助PE在资本运作和并购领域的经验帮助企业实施并购。因此,“PE+上市公司”并购基金自201
终止原模图 LDPC 卷积码(Terminated Protograph-based LDPC Convolutional Codes,TP-LDPC-CCs)结合了原模图LDPC码和LDPC卷积码的优点,具有多变的编码构造方式和优异的性能,有着广泛的应用前景。在此背景下,本论文主要研究了TP-LDPC-CCs算法及其FPGA(Field Programmable Gate Array)硬件实现,
本文对2015-2019年坦桑尼亚接收布隆迪的难民政策进行了定性评估,这一评估具有重要价值。因此,本文考察了坦桑尼亚在接收布隆迪难民案例上如何施行其移民政策。依据1998年《难民法》与2003年坦桑尼亚的难民政策,坦桑尼亚在布隆迪动乱后立即表示愿意接收布隆迪难民。历史上,坦桑尼亚政府曾多次接收来自其邻国的难民。坦桑尼亚自1961年从刚果、布隆迪与卢旺达中获得独立后便开始接收难民。2015年,时任布