论文部分内容阅读
深度学习是一类多层大规模的人工神经网络方法的统称,目前已经被广泛地应用到云服务器和智能终端的广告推荐、语音识别、图像识别等核心任务上。由于大数据时代的到来,互联网每天都会产生海量的数据需要进行深度学习处理。但通用CPU与GPU的深度学习处理速度太慢,能耗极高。例如2012年谷歌大脑在识别猫脸的深度学习模型中甚至需要使用1.6万个CPU核进行训练。为了解决深度学习实用化“卡脖子”的速度问题,业界迫切需要面向深度学习的新型处理器芯片。 本文的目标是设计高性能、低能耗的深度学习专用处理器,并设计由多个深度学习处理器组成的硬件平台以进一步提升深度学习处理速度。为实现这个目标,本文从深度学习处理器多核结构、深度学习处理器多芯片互联结构和深度学习处理器片间光互联设计三个方面进行了研究。 多核深度学习处理器设计在本章中,我们设计了一个支持多种深度学习算法(如分类层、卷积层、池化层、LRN层等)的多核深度学习处理器-DaDianNao。在设计多核结构的过程中,我们采用了无访存设计的设计思想来解决访存瓶颈问题,设计了基于H树的片上多核互联结构来解决高内部带宽带来的物理连线拥堵问题。模拟实验表明,在ST28纳米工艺下,DaDianNao的面积为67.73平方毫米。对于本文选用的测试集,其平均性能为Nvidia的一款通用计算GPUK20的21.38倍,平均能耗相比NvidiaK20降低了330.56倍。 深度学习处理器多芯片互联设计多个DaDianNao芯片可以通过互联提供较大的片上存储空间,将所有的神经网络参数存储在片上缓存中,绕过访存墙的限制。并且多个芯片可以提供多组运算单元从而提升运算性能。我们搭建了模拟器来评估多个DaDianNao组成的多芯片系统。实验结果表明,对于本文选用的测试集,64个DaDianNao组成的多芯片系统平均性能为Nvidia的一款通用计算GPU K20的450.65倍,平均能耗相比Nvidia K20降低了150.31倍。 深度学习处理器片间光互联设计自从1984年Goodman等首先提出集成电路光互联的概念以来,光互联作为一个有效解决电互联潜在问题的办法备受关注。由于在深度学习处理器多芯片结构中,片间数据传输是性能的瓶颈,因此为了使深度学习处理器多芯片系统的性能得到进一步提升,我们对如何在芯片间使用光互联和使用光互联带来的性能提升、功耗下降进行了研究。实验结果表示:64芯片的DaDianNao多芯片光互联系统的性能可以达到Nvidia K20的743.57倍,而能耗降低了213.44倍。