人工智能计算的需求剧增,迫切需要计算架构的创新
计算架构的瓶颈与突破方向随着人工智能计算的需求剧增,现有计算架构遭遇功耗墙、性能墙、内存墙、摩尔定律趋缓等挑战迫切需要计算架构的创新,解决路径主要体现在两点:突破计算架构和打破存储墙。计算架构的创新一直是争论的焦点
计算架构的瓶颈
与突破方向
随着人工智能计算的需求剧增,现有计算架构遭遇功耗墙、性能墙、内存墙、摩尔定律趋缓等挑战迫切需要计算架构的创新,解决路径主要体现在两点:突破计算架构和打破存储墙。
计算架构的创新一直是争论的焦点,在应用上涌现的GPU、FPGA、ASIC、类脑甚至于3DSoC等,都是想打破适应性、性能、功效、可编程性和可扩展性等5个硬件特性的瓶颈,任何一个架构都不会在5个特性都达到最优。
抛开哪个架构最优,适合人工智能的业务场景、数据类型、支出成本的架构,能让医疗AI解决方案快速的就是好的架构。
计算架构更新资金成本的提高、时间成本的延长和复杂度的提升,促使学术界和产业界转向研究“如何打破存储墙”,解决路径好多种,包括:
1. 高带宽的数据通信
高速SerDes:点对点的串行通信提升传输速度;
光互连:信号间无感应、无干扰、速率高、密度大替代电互联;
2.5D/3D堆叠技术:搭积木,不改变现有产品制程的基础上提高单位芯片面积内的晶体管数量,处理器周围堆叠更多的存储器件。
2. 数据、计算、存取
增加缓存级数:处理器和主存插入高速缓存,相对来说缓存越大速度越快,但成本高。
高密度片上内存:EDRAM动态随机存取内存、PCM相变存储的静态和非晶体转换。
3. 内存运算
近数据计算:离数据更近的边缘侧进行计算处理。
存算一体:片外高带宽内存HBM、高带宽存储(3D-Xtacking,存储单元和外围电路在不同晶圆独立加工)和片内(在存储器颗粒本身的算法嵌入)。
冯诺伊曼架构是计算机的经典架构,同时也是目前计算机以及处理器芯片的主流架构。在冯诺伊曼架构中,计算/处理单元与内存是两个完全分离的单元:计算/处理单元根据指令从内存中读取数据,在计算/处理单元中完成计算/处理,并存回内存。
存内运算的主要改进就是把计算嵌入到内存里面去,内存变成存储+计算的利器,在存储/读取数据的同时完成运算,减少了计算过程中的数据存取的耗费。把计算都转化为带权重加和计算,把权重存在内存单元中,让内存单元具备计算能力。
AI运算的另一方向
低功耗持续运行的物联网设备,比如计算机视觉(CV)的卷积神经网络(CNN)和用于自然语言处理(NLP)的递归神经网络(RNN)为大家所熟知,并且最近大热的推荐模型(RM)等新的应用程序也趋向于使用 DNN。对于RNN而言,其主要运算是矩阵向量乘法运算,由于其具有低数据重用特性,内存访问次数越多,通过内存通道的数据移动就越多,而性能瓶颈就越明显。
所以为了改进这一点,有很多人提出应用PIM技术重新构建DRAM内存,PIM正如其定义的那样,其操作和计算是在内存中执行的,也就是说,PIM的预期效果是通过在内存中执行操作而不将数据移动到 CPU,从而最小化数据移动,用来提升性能。从20世纪90年代末到21世纪初,学术界积极研究这一概念,但由于 DRAM 处理和逻辑计算的技术难度大,以及使用 DRAM 处理实现内存中 CPU 的成本太高,导致PIM 的竞争力大大削弱,并且也没有商业化。但是现今对于性能的需求使得这一概念的商业化提上了日程。
如果想要理解 PIM,首先我们是要知道 AI究竟进行了什么样的操作,下图给我们展示了神经网络中的完全连接(FC)层,单输出神经元Y1节点链接到X1,X2,X3和X4节点上,每个节点突触上的权重分别为w11,w12,w13和w14。AI为了处理这个全连接层需要将每个计算节点和权重相乘然后再进行求和,然后再应用一个激活函数,如RELU等。更复杂的情况是有几个输入(X1...Xn)和输出(Y1...Yn)的情况下,AI将每个单元分别乘以其对应输出的权重然后再分别求和,而这也就是数学上的矩阵乘法和加法运算。
同样的在图5中,如果我们把这些运算用的电路全部设计到存储单元中,则完全不需要将数据搬运和传输,只需要在存储单元中完成计算并且把结果告知CPU即可;这样不仅能够显著减少功耗,还能尽可能的处理更加复杂的操作。目前SK Hynix公司正在大力开发采用这一技术的PIM DRAM,对于RNN 等内存瓶颈的应用来说,如果在 DRAM 中使用计算电路执行应用程序,预计性能和功耗将有显著提高。而未来CPU需要处理的数据还在不断增多,PIM有望成为计算机提升性能最强有力的方案。
内存运算的优劣
(1)片外存储(基于数字芯片和存储器配合的存算一体)
①高带宽内存HBM:
对于GPU来讲,采用3D的DRAM和GPU金属线连接,提高通信速度(900GB/S),但功耗高、成本高。
对于其他芯片来说,用SRAM替代HBM(3D DRAM)降低能耗和提升读写速度,成本高。这种情况用大量的SRAM可以匹配大量的MPU和CPU等处理器,提升运行的效率。
②新型存储拓宽内存:
使用新型存储器布局在处理器周围拓展内存,比如磁存储(MRAM)降低成本、提升存储密度,断电数据不丢失,工艺仅多提高3-4层MASK,性能有效提升,达到约10Tops/W(每瓦特10万亿次运算)。
(2)片内存储(数模混合的存算一体化)
片内存储就是在存储器颗粒嵌入算法权重MAC,将存储单元具备计算功能,并行计算能力强,加上神经网络的对于计算精度的误差容忍度较高(存储位数可根据应用调整),因此存内计算数字和模拟混合即使带来误差对于符合的应用性能和能效比合适,带来存内计算和人工智能尤其深度学习的广泛结合。
①相变存储PCM
相变存储器通常是改变加热时间促进硫族化合物在晶态和非晶态巨大的导电性差异来存储数据,相变时间100-1000ns,可擦写次数达到108,现在新型材料涌现的越来越多。
②阻变存储器/忆阻器 RRAM/Memristor
忆阻器,是一种有记忆功能的非线性电阻,它的电阻会随着流过的电流而改变。在断电之后,即使电流停止了,电阻值仍然会保持下去,直到反向电流通过,它才会返回原状。所以,通过控制电流变化可以改变它的阻值,然后例如将高阻值定义为“1”,低阻值定义为“0”,就可以实现数据存储功能。人们通常将它用于构建高密度非易失性的阻变存储器(RRAM)。
忆阻器网络,与生物大脑的神经网络相似,可以同时处理许多任务。最重要的是,它无需反复移动数据。它可以并行地处理大量信号,特别适合于机器学习系统。编程时间大概10-1000ns,可编程次数106-1012次。
③浮栅器件
浮栅器件工艺成熟,编程时间10-1000ns,可编程次数105次,存储阵列大,实现量产运算精度高、密度大、效率高、成本低,适宜深度学习和人工智能使用。
3.芯片优化策略
终端存算一体芯片推理应用需要更低的成本、更低的功耗,对于精度、通用性要求不高。
云端存算一体芯片训练应用需要通用性、速度和精度要求,因此目前存算一体芯片精度不高情况下适宜前端的嵌入式应用。
4.存算一体芯片挑战
(1)现有浮栅器件存储不适合计算,需要优化和改进。
(2)新型存储器的进展挑战浮栅器件,会有更适合存算一体的可能。
(3)存算一体目前在8bit运算精度,在适宜的条件下需提升运算精度,比如Nor Flash做到10bit。
(4)存算一体芯片与开发环境、架构和现有工艺的兼容需要市场和时间。
(5)性能与场景结合需要落地。
5.存算一体的未来
(1)低精度但准确的乘法和累加运算带来端的效率提升,芯片成本降低,目前Nor Flash在40nm/55nm工艺下即可,但Nor 会一定程度限定应用,不过未来开发更优化器件和工艺就可突破。
(2)存算一体芯片的投资机构包括软银、英特尔、微软、博世、亚马逊甚至美国政府,中国存算一体的知存科技将获得下一轮的投资,同时还有清华忆阻器的新忆科技。
(3)存算一体芯片第一代产品都瞄准语音,未来都将切入安防和细分市场,但。
(4)存算一体企业模式应分为两种模式:一是销售IP,二是做AI存算一体芯片,前者单纯IP日子将非常难过。未来还是做芯片吧!不过各类竞争也不小。
(5)目前存算一体的极限效率为>300Tops/W(8bit),现在工业界差距较大5-50Tops/W,进步空间大。
(6)浮栅器件在摩尔定律带动下朝着更高工艺发展,比如从40-14nm过渡,性能将大幅提升。新型存储器将从28-5nm工艺过渡,提升工艺性能。
(7)存储器工艺将朝着2X甚至10X及结构优化提升存算一体性能。
编译自:The prospect of Processing In Memory (PIM) in memory systems for AI applications ----EEtimes
关于慧维智能
慧维智能医疗科技有限公司成立于2019年6月,专业从事智能医疗产品的研发、生产与销售。我们的核心成员,均来自全球顶尖的科研机构和世界五百强企业。慧维智能以在“人工智能”和“边缘计算”领域的自主核心技术为驱动力,致力于为全球医疗机构提供“高水准、好体验”的医疗产品与服务,最大程度地帮助医生提高诊疗水平与效率。