基于分组剪枝的CNN加速器设计与FPGA验证

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhaobaodong2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着深度学习算法的发展与硬件设备算力的提升,卷积神经网络逐渐成为计算机视觉领域高性能的代名词,在物联网与边缘计算的应用中发挥着重要的作用。然而,卷积神经网络的高性能以高密集运算及庞大参数量为代价,对卷积神经网络的终端部署带来了极大的挑战。为了深度学习技术的普及,对卷积神经网络的参数压缩及加速运行具有重要的研究价值。本文从挖掘卷积神经网络参数冗余性的角度出发,设计网络加速算法与高性能硬件加速架构,最大限度地删减模型参数量与运算量,提升模型运行效率。首先基于分组卷积算法的实现形式与阵列结构加速器的卷积层计算形式,设计分组剪枝算法改善结构化剪枝方法存在的删减冗余问题。其次,针对分组剪枝算法下L-2正则化方法存在的局限性,提出一种组内稀疏正则化方法,在减少原网络精度损失的同时进一步提升网络参数删减率。最后,针对分组剪枝后的高稀疏网络设计硬件加速器,建立访存传输数学模型并探索最佳的设计规模与计算模式。通过稀疏计算单元设计、片内外缓存调度、功能层计算及系统调度等优化加速器的设计,进一步加速分组剪枝后的稀疏网络。本文以典型的LeNet-5与VGG-16为实验对象,在卷积层参数删减率87.5%下,分组剪枝后网络的运算量分别减少了75.4%与86.9%,且GPU前向推断实现了2.53倍与2.15倍的加速效果,其中LeNet-5网络在MNIST数据集下实现零误差,VGG-16在CIFAR-10数据集上误差仅增加0.48%。基于中芯国际40nm工艺库的DC综合结果显示,在工作频率200MHz且工作电压1.1V下,硬件加速器总功耗141.08m W,核心面积为1.867mm2。以Xilinx VC707开发板为实现平台,在时钟频率100MHz下使用VGG-16网络测试加速器的性能,所设计加速器在功耗8.15W下的有效算力可达188.41GOPS,对应功效为23.1GOPS/W。本文基于分组剪枝的CNN硬件加速器设计方法对人工智能终端轻量化、低耗能的研究与设计具有一定的参考意义。
其他文献
随着视频传输技术的深入发展,基于无线视频监控的无人值守油田工作方式已经成为现代化油田生产管理的主流趋势。ZigBee技术作为一种无线通信技术,已广泛应用于各个领域,将ZigBee技术应用到采油机监控视频领域,发挥其低成本和低功耗的优势,具有良好的应用前景。本文首先分析ZigBee网络技术,针对视频传输的数据量大和ZigBee传输的低带宽之间的矛盾,提出以设计多射频多信道网络为核心,结合H.264视
随着中国制造2025战略的提出,中国正处于从大国到工业强国的重要转型时期,伴随着互联网时代浪潮,制造业对于生产设备的自动化、智能化要求越来越高。随着传感器技术、人工智能、运动控制算法等先进技术的快速发展,机器人作为代替人工作业的重要智能设备,越来越多的应用于先进制造业中,极大的提高了工业生产效率和品质。打磨作业是工业生产中必不可少的一环,本文基于我国打磨行业现状,从实际应用的角度,针对小型工件的打
近年来,虚拟现实技术的日益成熟和计算机运算性能的稳健提升,为虚拟人群仿真技术的研究与应用奠定了坚实的基础。虚拟人群仿真技术主要包括实时绘制技术、运动控制技术和行为控制技术,其中,路径规划技术为运动控制中的关键技术之一,且体现了人类的基础行为能力,路径规划技术便成为了人群仿真中的研究热点之一。然而,已有的虚拟人群路径规划方法大多以环境已知为前提条件,无法满足虚拟人群自主学习和适应不确定性环境的要求,
目前VR虚拟现实技术在室内设计领域获得广泛的应用。设计师通过VR全景漫游的方式向用户展示精心创作的室内设计方案。各大网站上都涌现了大量的VR全景方案以供用户选择。以传统的基于文本的检索方式难以在海量的方案中精确地找到业主需要的全景方案。本文将研究一种基于图像智能检索的VR全景方案匹配方法。使用深度学习技术,通过一张室内效果图,在海量的VR全景方案库中快速准确地匹配出相似的方案。论文的主要内容如下:
同时定位与制图(Simultaneous Localization and Mapping,SLAM)是移动机器人在未知环境下进行自主导航的关键技术,目前已成为国内外学者研究的热点。而回环检测作为SLAM系统的重要组成部分,可以消除移动机器人在长时间运动后位姿估计的累积误差,保证构建出的地图具有全局一致性。本文对回环检测技术中的特征提取算法和相似性度量算法进行研究。论文的主要内容如下:(1)研究了
近年来,随着自动控制技术、通讯技术和机器人技术的不断发展,机器人在人类生活中的应用越来越广泛。单个机器人在某些应用背景下,在感知范围、计算能力、抗干扰能力等方面都有着很大的缺陷。而多个机器人协同合作可以获得更大的感知范围、更高的计算能力和更好的抗干扰能力。因此,多机器人协同合作已成为机器人学发展的新方向。在多机器人协同合作问题中,多机器人编队问题是研究多机器人协同合作的基础问题,多机器人协同对抗则
得益于人工智能理论的进步和计算机硬件水平的提升,计算机视觉技术在近年来得到了快速的发展,与计算机视觉技术相关联的实际产品也逐渐走入了我们的生活。图像识别技术是计算机视觉技术的一个重要的研究领域,其根据识别场景又可分为粗粒度图像识别技术和细粒度图像识别技术。过去几年中,大部分的研究集中在粗粒度图像识别技术中,但受到实际应用场景的驱动,对细粒度图像识别技术的研究得到了越来越多的关注。相比于粗粒度图像识
目的论文选取与口腔鳞状细胞癌(OSCC)密切相关的蛋白标志物(PTM)为目标物,以PTM电化学免疫传感器面临的灵敏度较低、构型单一、固载效果差、检测复杂等问题为切入点,从生物元件固定化活性界面、信号标记物以及免疫检测模式等方面着手,建立系列灵敏度、稳定性和选择性三高的PTM电化学免疫传感新方法,为生物样本中活性分子识别及定量检测提供高效、精密、准确的方法学基础,为痕量标志物检测提供新思路。方法论文
小样本细粒度分类的应用广泛,但是现有的小样本细粒度分类算法正确率较低,分类数量也不多,限制了其实际应用。此外,由于某些任务的特殊性,例如需要生物学家在野外当场对稀有鸟类或其它生物物种进行识别,远程计算的实现难度较大。因此,小样本细粒度分类问题的硬件实现具有很重要的实际意义和广阔的发展前景。本文针对上述两个问题,在算法和FPGA两个方面进行设计和优化,并进行FPGA系统验证。在算法方面,本文通过将元
电耗、氯耗、矾耗是自来水行业制水成本的主要组成部分。其中电耗相对于其它两项而言,占到了制水成本的80%以上。如何以更优的方式来调度水泵,使得在保证安全生产的同时,能实现节能降耗的目的,是供水企业普遍面临且需要长期探索的课题。本文主要研究一泵房(也称原水泵房、取水泵房)的优化调度。通过对生产工艺、主要生产设备知识的学习、熟悉和了解,先对整个系统进行了设计,确定了以“用水高峰补水、用水低峰蓄水”为主要