【摘 要】
:
全卷积神经网络在计算机视觉应用中普遍存在,例如物体检测,语义/图像分割以及可以学习在语音、图像、视频和文本等多个应用领域中自动创建标记数据集的生成性对抗网络。在一个全卷积网络中,传统卷积层和反卷积层都是计算复杂度的主要来源。然而,早期的深度学习加速器设计主要关注于卷积神经网络的优化,对于反卷积层的加速研究关注较少。目前的研究工作中,一种较为常见的方法是设计独立的计算资源去处理反卷积层,但是这种方式
论文部分内容阅读
全卷积神经网络在计算机视觉应用中普遍存在,例如物体检测,语义/图像分割以及可以学习在语音、图像、视频和文本等多个应用领域中自动创建标记数据集的生成性对抗网络。在一个全卷积网络中,传统卷积层和反卷积层都是计算复杂度的主要来源。然而,早期的深度学习加速器设计主要关注于卷积神经网络的优化,对于反卷积层的加速研究关注较少。目前的研究工作中,一种较为常见的方法是设计独立的计算资源去处理反卷积层,但是这种方式会引起相当大的硬件资源开销。在本文的研究中,对于反卷积层的加速设计进行了深入的探索。对于反卷积层的硬件加速器进行了深入的探索,最大化的利用广泛使用的卷积加速器架构实现反卷积的加速,在卷积加速器的基础上实现了全卷积神经网络的加速。我们重新优化了一维(点积)处理单元阵列和常规二维处理单元阵列的传统卷积神经网络加速器架构。对于一维阵列,本文提出一种计算模型将反卷积映射到加速器,其在一组代表性的研究应用中可实现1.6~3.9倍的加速,并且将能耗降低41.7%~72.3%。对于二维处理单元阵列,通过利用反卷积核局部性,该架构将片上存储通信的消耗从24.79 GB减少到6.56 GB。与以往的反卷积加速设计方案相比,所提出的加速器在不同的基准应用中取得了1.3~2.7倍的加速并且将能耗降低了15.6%~63.5%。本文进而提出了一种新颖的反卷积层加速实现方案,完全采用软件的转换方式,这种方式重组了反卷积层的计算流程,把反卷积核拆分并转化成多个小核,从而把反卷积运算视为卷积操作来实现。这种方案在不增加任何硬件修改的前提下,只利用现有CNN加速器来加速反卷积运算。所提出的数据流在一维阵列和常规二维阵列架构上实现,在一组基准应用中实现了2.4~4.3倍的性能加速并且将能耗降低了27.7%~54.5%。
其他文献
介绍了用一台常规电机和一台伺服电机组成的并联双曲轴驱动肘杆机构,并将其用于精压机的结构设计中。利用伺服电机的可控性实现对冲压滑块下死点位置、速度的控制,进而提高精
文章依托语言接触理论,以维吾尔语药物外来词为例,简析了波斯医学对维吾尔医学的影响,并通过语言事实从政治联系、经贸往来、战争征服、宗教影响等角度分析了中国——波斯医
目的探讨孕妇血清维生素A、E水平与子痫前期的相关性。方法收集2016年8月至2018年8月在东莞人民医院产检并行维生素A、E检测的孕妇5 000例,根据纳入和排除标准共有1 320例进
<正> 目前,中国企业在国内外市场上面临的世界性竞争正日趋激烈。在这种背景下,对中国外贸企业来说,了解并借鉴运用好新的国际营销管理理论就显得更为重要了。 本文主要论述
<正> 锤锻模经过使用之后,呈现多种状态,这些状态特征,为正确地设计锤锻模提供了可靠的基础和依据。两者关系甚为密切,若能将锤锻模使用后的磨损损坏特征正确地掌握,并能运用
<正>作文是语言的艺术,作文好不好,上不上档次,其中一个重要的标准就是语言表达是否有亮点。创新作文的亮点之一就是语言表达有特色、有个性,能够吸引人的眼球,让人眼前一亮,
为了解逆境对金线兰抗氧化酶活性的影响,以金线兰[Anoectochilus roxburghii(Wall)Lindl]无菌种子苗为材料,研究了低温胁迫(3℃,8℃,13℃,18℃)对金线兰抗氧化酶活性的影响。结果
利用绘本的内容对儿童进行品格和知识的培养已很常见,儿童科普绘本就是其中一种。然而绘本并不能沦为科普的工具,儿童科普绘本仍须遵守儿童本位创作理念。本文主要通过举例日
本论文通过文献资料、网络问卷调查法和专家咨询法进一步阐述了羽毛球运动项目的特点及意义。通过研究羽毛球运动的锻炼效益、交际、环境和资金四方面,并结合《全民健身计划
三大都市圈是中国的经济、文化和交通中心。就三大都市圈的人口迁移进行研究,对于整个中国的人口迁移研究具有代表性意义。运用空间统计中有关方向和距离的研究方法,针对2000