稀疏卷积神经网络FPGA加速器的设计与研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xingyu2266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度卷积神经网络在广泛的应用中都达到了最先进的性能。但是,复杂的人工智能任务通常需要更复杂的更深的卷积神经网络模型,这些模型包含庞大的参数量和运算量。尽管最近的研究进展表明,网络压缩(例如剪枝)已成为减轻计算负担的有效手段,但剪枝引起的网络连接不规则性,阻止了现有的加速器充分利用网络的稀疏性。另一方面,现场可编程门阵列(FPGA)有望取代图形处理器(GPU)成为深度卷积神经网络推理加速的硬件平台。但是,大多数现有的FPGA加速器都聚焦于密集的深度卷积神经网络,无法解决不规则性问题。首先分析了卷积层的计算并行性,一种稀疏优化的数据调度方式被提出,以跳过权重为零的乘法和累加(MAC)的处理周期,并利用时钟门控技术来最大程度地避免不必要的计算,以减少计算单元的能耗。所提出的稀疏优化的数据调度方式具有低带宽需求和高数据共享的特性。然后,一个包含输入像素调度模块的FPGA加速器被实现,该输入像素模块可以根据所提出的数据调度方式匹配稀疏权重和输入像素之间的索引,从而筛选出计算所需的输入像素。最后,进行了设计空间探索,并在给定的FPGA平台上找到计算单元阵列的最佳配置。实验结果表明,所提出的加速器可以在Xilinx ZCU102上对Alex Net、VGG-16和Res Net分别实现476.7 GOP/s、495.4 GOP/s和244.5 GOP/s的吞吐量,与已有的卷积神经网络FPGA加速器相比,加速效果提高1.5倍至6.7倍,能效提高2.0倍至6.0倍。
其他文献
随着我国智慧法院的建设和司法透明化逐步落实,大量的裁判文书被公开,但由于全国各地司法系统的不同、案件文书类型的多样性、审判流程的复杂性以及人为的一些失误,导致裁判
文本是一种非结构化数据,计算机无法直接对文本进行处理,需要将其转化为结构化数据.构建文本表示模型是文本处理的首要目标.本文提出两种文本表示模型——局部热词模型和结构
有限时间控制问题已引起了国内外学者的关注。考虑到p规范型非线性系统模型在实际工程中有着广泛的适用性,所以本文基于backstepping技术研究了几类p规范型非线性系统有限时
2017年党的十九大报告提出实施乡村振兴战略,明确指出农业农村农民问题是关系到国计民生的根本问题,要把解决好“三农”问题作为全党工作的重中之重。由此,乡村得到社会各界
临床观察发现,绝大部分脑卒中患者存在不同程度的运动功能障碍。其中踝跖屈障碍患者和踝背屈障碍患者的步行能力及行走效率下滑,使得他们的自理能力、参与能力和生活质量受到
随着社会的进步和控制理论的发展,多智能体系统的相关研究受到了越来越多学者的关注,并且被广泛应用于智能电网、交通控制和分布式计算机网络等领域。同时,作为多智能体系统
本论文从生活用纸所用纤维原料和辅料、生产工艺与产品主要质量指标的关系出发,借鉴欧盟先进法规对生活用纸生产过程包括从原料、抄造过程控制、终端成品的用途及化学品辅料
随着服务机器人越来越多的应用于人的家庭生活,这就需要机器人能够在接受简单服务指令的前提下,提高智能水平,为人们提供更贴心的服务。为了使机器人能够为用户提供主动贴心
近年来,在我国政府实施“走出去”、“一带一路”等政策的推动下,我国企业加快了国际化经营步伐,越来越多的中国企业走出国门参与全球竞争,特别是国内许多从贴牌代加工向自有
近年来,由于能源短缺和环境污染等方面的问题,新能源的开发利用成为人们关注的焦点,半导体光电化学技术将太阳能直接转换为电能,被认为是最具有应用前景的技术之一。在半导体光电极材料中,TiO2依然占据了最重要的地位。然而TiO2的两大固有缺陷限制了其在光电化学领域的持续发展:一是较宽的带隙,二是较高的电子空穴复合率。TiO2纳米棒阵列因其具有有序的物理结构和较大的比表面积,能有效地提高载流子传输能力,从