稀疏神经网络加速器研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：hwguomin

【摘要】

：

最近几年，神经网络的应用越来越广泛，在图像、语音、机器翻译等领域都取得了卓越的成绩。为了提升神经网络的效果，神经网络的规模逐年递增，结构日益复杂。这导致神经网络的计算量

【作者】

：

张士锦

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

稀疏性神经网络加速器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

最近几年，神经网络的应用越来越广泛，在图像、语音、机器翻译等领域都取得了卓越的成绩。为了提升神经网络的效果，神经网络的规模逐年递增，结构日益复杂。这导致神经网络的计算量和访存量急剧增加。为了应对上述挑战，学术界提出了神经网络稀疏化的方法。稀疏后的全连接神经网络权值可以减少10倍。然而现有的通用计算平台CPU、GPU不能很好利用神经网络的稀疏性，过去的神经网络加速器（如DianNao等）甚至不支持稀疏神经网络。　　本文从微结构、算法映射和功能验证等方面对稀疏神经网络加速器进行了较为系统的研究，主要取得了以下创新:在微结构方面，我们设计了一种新的稀疏神经网络加速器微结构:Cambricon-Ⅹ。Cambricon-Ⅹ能够充分利用稀疏神经网络的特性，大幅减少神经网络的计算量和访存量。Cambricon-Ⅹ的核心是其索引模块。它能根据连接关系处理输入神经元，并将处理后的数据通过胖树发送给不同的计算单元。不同的计算单元存储了不同的权值，计算不同的输出神经元。在索引模块中，我们提出了两种连接关系的表示方法:直接索引和步长索引的方法。经过比较，步长索引比直接索引的代价更小，我们最终采用了步长索引的方法。在65nm的工艺下，Cambricon-Ⅹ能够达到544GOP/s的性能，面积和功耗只有6.38mm2和954mW。实验结果表明，在一些稀疏神经网络的测试中，我们的加速器能够比DianNao神经网络加速器快7.23倍，同时能耗降低6.43倍。　　在算法映射方面，我们提出了各种常见神经网络算法在加速器上的映射方法。在神经网络中，不同的神经网络层具有不同的运算和访存特点。卷积层的计算量很大，卷积层的计算量超过了整个卷积神经网络80％以上的计算量，由于共享权值的特点，卷积层的权值数量很少。全连接层与卷积层恰恰相反，全连接层的计算量很小，权值的数量却很多。池化层和各种归一化层都没有权值，计算量都不大。在将不同的神经网络层映射到加速器时，需要考虑每种层的计算和访存特点。对于卷积层，我们采用复用权值的方法，每个权值只会从内存中读一次，直到所有和这个权值的相关的输出都使用过这个权值之后，这个权值才会被丢弃掉;对于全连接层和其他层，我们采用复用输入或者输出神经元的方法，尽量减少神经元在内存中的读写次数。采用我们的算法映射方法，最大化减少了访存量，加速器在很多层上运算效率在90％以上。　　在验证方面，我们提出了一套针对神经网络加速器的验证方法以及一个通用的参考模型。首先，验证采用层次化方法，不同阶段的验证侧重点不同。在模块级验证阶段，采用白盒验证手段，重点验证模块的功能以及内部信号的状态。在子系统级验证阶段，我们将加速器分为IO子系统和运算子系统，不同的子系统分别验证不同的子功能。在系统级验证阶段，我们搭建了两个不同的验证环境。一个是在线比较的验证环境，主要为了验证加速器在随机指令序列激励下的功能;另一个是离线比较的验证环境，主要为了验证加速器在神经网络配置激励下的运算功能。为此，我们开发了一个基于C++的通用参考模型。该参考模型与加速器结构无关，能够支持各种低精度的神经网络运算，并且支持各种常见的神经网络类型。对于不同的加速器结构，参考模型只需要简单的修改层内的计算顺序即可使用。另外，该参考模型支持多线程，因此运算速度相比RTL的仿真速度提高了很多。在验证的不同阶段，我们使用不同的衡量参数来保证验证工作的充分性。　　上述工作已部分应用于国际上首个稀疏神经网络处理器芯片上，确保了该芯片的实用性和正确性。

其他文献

OSPF协议性能测试的研究与实现

随着通信技术的迅速发展,Internet网络用途的扩大,网络规模也随之加大.大规模的网络要求高性能的互连设备,因此网络设备的性能问题越来越为广大网络建设者所重视.为了公正,客

学位

性能测试被动测试主动测试OSPFNS通信协议路由协议

植物组织培养过程信息系统研究与设计

面向对象分析是面向对象软件工程的一个组成部分.它通过类和对象模拟现实世界的实体属性及其行为的分析,发现现实世界系统的层次结构.面向对象分析方法还揭示了可以通过对象/

学位

面向对象分析管理信息系统植物组织培养过程控制

基于视频的面部动态表情识别

表情是人类表达情绪的一种基本方式，是非语言交流中的一种有效手段。心理学家认为，情感的表达7％通过语言，38％通过语言的辅助信息（如讲话的节奏，声音频率及语调轮廓等），55％则通过面部表

学位

视频场景面部动态表情识别统计建模三维卷积神经网络

异构数据库查询中间件的设计以及基于AGA的BP网络的应用

该文设计的异构数据库查询系统的体系结构是使用联邦数据库和数据仓库以外的第三种方法:中间件技术,在各种异构数据源和相应的接口上建立了一种新的数据模型,可以利用该模型

学位

异构数据库系统Mediator数据模型QMPMAGABP网络

非频繁关联规则挖掘的研究

本论文研究数据挖掘的典型理论和一些急待研究、发展的课题，并将研究重点放在非频繁关联规则挖掘上。简单的说，数据挖掘是从大量数据中提取或挖掘知识。数据挖掘是计算

学位

数据挖掘非频繁关联规则牛顿插值支持度相似度置信度

并行数据仓库PARAWARE系统的多维数据管理技术

该文论述我们自行研究开发的一个并行数据仓库系统PARAWARE的核心技术--多维数据的存储、查询和维护的理论研究和系统实现.该文共分四个部分.第一部分介绍了数据仓库和联机分

学位

并行数据仓库多维数据存储查询处理多维表达式增量维护滑动窗口

基于非干扰式数字游戏的人类认知和行为感知方法

上世纪80年代提出的人机交互技术着重强调了以人为中心的计算和人体工程学。近些年来，随着智能设备的普及和视频游戏用户的不断增长，人机交互已经被应用于我们生活的方方面面。

学位

休闲活动辅助技术认知评价行为感知人体工程学工业设计

IPSec协议的分析与在Linux平台下实现技术的研究

IPSec(IP SECURITY)是近年来发展起来的一种网络安全标准，它在网络层针对IP包进行加密和认证，以保证数据的保密性和完整性。本文从网络安全问题开始，首先简单介绍了IPSec协议体

学位

网络安全iPSec认证头封装安全载荷Interne密钥交换FreeS/WAN

社交网络上的消息爆发预测研究

社交网络的开放性和互联性，造成了社交网络中信息来源广泛，更新速度快。在海量的社交消息中，最终只有一小部分会引起人们的兴趣和关注，最终流行或爆发，造成巨大的社会影响，甚至引导

学位

社交网络k壳分解循环神经网络点过程爆发预测

基于AIS数据的船舶异常行为检测

地球表面积的71％是海洋，我国拥有299.7万平方公里的海洋国土。从安全需求上来看，要监控恐怖袭击、海盗、走私、偷渡等违法活动，发现违法侦测、资源侵占等行为，为国土安全提供屏障

学位

船舶异常行为检测方法AIS数据信息融合

稀疏神经网络加速器研究

其他学术论文