深度学习处理器研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:Mos_Lei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是一类多层大规模的人工神经网络方法的统称,目前已经被广泛地应用到云服务器和智能终端的广告推荐、语音识别、图像识别等核心任务上。由于大数据时代的到来,互联网每天都会产生海量的数据需要进行深度学习处理。但通用CPU与GPU的深度学习处理速度太慢,能耗极高。例如2012年谷歌大脑在识别猫脸的深度学习模型中甚至需要使用1.6万个CPU核进行训练。为了解决深度学习实用化“卡脖子”的速度问题,业界迫切需要面向深度学习的新型处理器芯片。  本文的目标是设计高性能、低能耗的深度学习专用处理器,并设计由多个深度学习处理器组成的硬件平台以进一步提升深度学习处理速度。为实现这个目标,本文从深度学习处理器多核结构、深度学习处理器多芯片互联结构和深度学习处理器片间光互联设计三个方面进行了研究。  多核深度学习处理器设计在本章中,我们设计了一个支持多种深度学习算法(如分类层、卷积层、池化层、LRN层等)的多核深度学习处理器-DaDianNao。在设计多核结构的过程中,我们采用了无访存设计的设计思想来解决访存瓶颈问题,设计了基于H树的片上多核互联结构来解决高内部带宽带来的物理连线拥堵问题。模拟实验表明,在ST28纳米工艺下,DaDianNao的面积为67.73平方毫米。对于本文选用的测试集,其平均性能为Nvidia的一款通用计算GPUK20的21.38倍,平均能耗相比NvidiaK20降低了330.56倍。  深度学习处理器多芯片互联设计多个DaDianNao芯片可以通过互联提供较大的片上存储空间,将所有的神经网络参数存储在片上缓存中,绕过访存墙的限制。并且多个芯片可以提供多组运算单元从而提升运算性能。我们搭建了模拟器来评估多个DaDianNao组成的多芯片系统。实验结果表明,对于本文选用的测试集,64个DaDianNao组成的多芯片系统平均性能为Nvidia的一款通用计算GPU K20的450.65倍,平均能耗相比Nvidia K20降低了150.31倍。  深度学习处理器片间光互联设计自从1984年Goodman等首先提出集成电路光互联的概念以来,光互联作为一个有效解决电互联潜在问题的办法备受关注。由于在深度学习处理器多芯片结构中,片间数据传输是性能的瓶颈,因此为了使深度学习处理器多芯片系统的性能得到进一步提升,我们对如何在芯片间使用光互联和使用光互联带来的性能提升、功耗下降进行了研究。实验结果表示:64芯片的DaDianNao多芯片光互联系统的性能可以达到Nvidia K20的743.57倍,而能耗降低了213.44倍。
其他文献
计算机视觉的主要研究目标是有效地根据图像等多维数据建立人工智能系统从而认识现实世界。图像分类是计算机视觉领域基础研究问题,是理解和分析图像内容的重要技术方法。而在
工业生物技术战略研究、知识环境建设是中科院“十一五”创新方向项目,本文即是以中国科学院(九所一基地)工业生物技术产业基地生物信息系统的建设需求为项目背景展开的研究。
网络上的信息种类繁多,数量巨大,人们越来越倾向于到网络上获取需要的信息。借助网络的力量,信息被更加广泛地传播,很多内容提供商也都建立了自己的门户网站。人们在享受网络上取
在实际的网络工程建设中,往往需要事先进行设计规划。要考虑的因素包括流量、带宽估计、拓扑结构、地理位置、网络设备性价比等。如果仅仅依靠理论研究和经验指导是不够的,因为
服务计算是面向动态、多变、复杂的互联网环境而提出的一门以Web服务、面向服务的体系架构(Service Oriented Architecture,SOA)为基础支撑技术,以服务组合为主要软件开发方法,
当前互联网飞速发展,越来越多地影响着人们的工作、学习和生活,也越来越多地推动着社会的进步和国家的发展。随着网上信息量的增多、网民的网上行为的频繁与复杂,互联网的结构和
数字水印和信息隐藏是近年来发展起来的一门新兴学科,各种传统的技术领域比如图像处理、多媒体技术、密码学和信息安全、通讯技术乃至基础数学等等,在这里找到了交汇点。随着科
原位根系CT序列图像的分割是植物根系三维重建和定量分析的基础,在根系形态的原位、无损检测技术研究中具有举足轻重的地位和作用。本文首先综述了常见图像分割算法,分析了图像
近年来,无线通信技术得到了迅猛发展,无线局域网在世界范围内得到了广泛部署;另一方面,基于位置的服务在很多领域得到了越来越多的应用。提供基于位置的服务的关键是如何准确获取
Tivoli Data Protection for Oracle作为一种数据库存储软件,其手工测试极其繁琐,其回归测试耗费大量的时间和精力。本文基于TDPfor·Oracle系统手工测试经验,设计并实现了TDPfo