股票啦网 www.gupiaola.com 2021年12月22日报道:融合GPU没能满足内存带宽计算吞吐量的不同需求
摘要
随着GPU拓展了低精度矩阵数学运算的吞吐量进而提高其深度学习能力,GPU突破了数学运算的吞吐量与内存系统功能之间的平稳。人们证明了一款尝试去解决在基于单精度(FP32)(或更高精度)高性能运算和基于半精度(FP16)(或更低精度)深度学习的工作负载之间融合不同架构需求的GPU设计,针对任何应用领域都是次优的结构。大陆投资者如何购买美股人们认为一款在封装级灵敏组合的GPU架构来提供专用领域的GPU产品不同的架构需求来说是最切实可行的解决方法。COPA-GPU充分利用了多芯片模块分解来支持最大化的可重用设计和每个应用领域内存系统专用化。人们展示了一款COPA-GPU是如何使通过模块化增强其基准GPU架构,使其达到4倍高的片外带宽,32倍大的可封装高速缓存,2.3倍高的DRAM带宽和容量,同时还提供便利的向下兼容的面向高性能计算的设计,从而实现深度学习专用化的产品。这次工作寻求了可组合GPU所必需的微架构设计以及评估其为高性能计算、深度学习训练和深度学习推理带来的好处。相比于融合GPU设计,一款面向深度学习优化的COPA-GPU具有16倍大的cache容量,1.6倍高的DRAM带宽的组合,在扩展训练场景下,每个GPU的训练和推理性能分别提高了31%和35%,而且减少了50%的GPU个数。
1、 Introduction
深度学习已经彻底改变了计算机(512720)视觉,自然语言处理,语音识别和推选系统,而且重塑了自动化、机器人(300024)学、电子商务和医疗保健行业。大陆投资者如何购买美股由于它编程相对简单,丰富的优化软件库集,以及计算能力与片外内存带宽之间很好的平稳,GPU已经成为了深度学习应用的关键平台之一。GPU加快可以将训练时间从月减少到分钟。然而GPU架构也需要适应日益复杂的模型和数据集的进展,进而满足深度学习日益高涨的计算需求。
GPU供应商已经享受了很久的微缩律带来的收益了,即只要通过增加晶体管的密度,同时制造更大的裸片带来的收益。大陆投资者如何购买美股随着集成电路技术的进展,架构师有充分的资源来增加面向计算及图形的专用领域硬件到GPU中,这也导致了现如今融合GPU设计服务于多个应用领域。为了满足高性能计算,GPU增加了高成本的高精度算术(双精度)单元,先进的错误预测和修正硬件,高宽带储备以及高速IO接口,例如NVIDIA的NVLINK。类似的,可以面向深度学习增加例如NVIDIA Tensor Core和$AMD(AMD)$ Matrix Core专业硬件,同时增加RT Core来加快下一代光线追踪计算。
最近GPU在低精度数学吞吐量取得了长足的进步,钻研发觉了利用低精度算法实现高精度深度学习训练与推理的可行性。大陆投资者如何购买美股例如,NVIDIA V100 GPU引入了DL Tensor Core增强了在一代GPU内6倍的半精度吞吐量。NVIDIA Turing GPU系列钻研更加深入,其中的Tensor Core还支持4/8位整数指数。最近,NVIDIA A100GPU增加了比V100多2.5倍的半精度吞吐量。
这项工作证明了在单精度/双精度高性能计算应用和低精度深度学习网络中,融合GPU没能满足内存带宽计算吞吐量的不同需求。大陆投资者如何购买美股此外,受限于硅光刻的掩膜版,晶体管缩小尺寸放缓,这限制了晶体管数量和裸片的增长,进而使得面向多应用领域使用的单一融合GPU设计能愈来愈难提供足够的竞争力。随着裸片尺寸的增大,裸片边缘成亚线性扩展,将来片外带宽的扩展也将面临着风险,片外DRAM和IO带宽限制了单一芯片的可用性。
随着数据中心深度学习领域专用加快重视要性的日益增长,通过大量专用深度学习算法的加快器实现加快的可行性已被验证。大陆投资者如何购买美股人们认为,技术进展行情趋势和极具竞争性的深度学习布局相互作用建造了一个转折点。在这个转折点上,GPU制造商一定拥抱更多专用领域的GPU设计,在再次提供有竞争力性能的同时最大化重用设计并最小化一次性工程花费(NRE)。
在本工作中人们钻研历史行情趋势和项目将来比率,展示了GPU中高精度与低精度数学运算吞吐量明显的差异。大陆投资者如何购买美股人们说明了这个鸿沟导致了设计一个能同时支持高性能计算和深度学习使用的储备系统是一件困难的事情。因此,人们提出一种可组合封装(Composable On-PAckage)GPU(COPA-GPU)架构来构建一种面向领域优化GPU系列。利用多芯片模块集成以及新兴的电路技术创新,人们提出将服务于高性能计算和深度学习领域的单一融合GPU替换为可组合的半专用设计,如图1(b)和1(c)所示。
图1。大陆投资者如何购买美股(a)当今单片融合(高性能计算和深度学习)的GPU (b)专用于高性能计算领域COPA-GPU (c)专用于深度学习领域COPA-GPU
一款专用于高性能计算的COPA-GPU(类似于图1(b))使用了基础的GPU模块(GPM)和内存系统模块,它们也可以按照如今常见的融合GPU的方式延续微缩。大陆投资者如何购买美股也可以通过在高的封装带宽支撑下封装大容量的高速缓存来和更多的片外DRAM资源来增强内存系统 (图1(c)),来到一个良好不同的COPA-GPU设计。这一设计将比较适合于需要带宽的深度学习工作负载。封装级别的专用化并非无代价的,这需要对GPU储备系统架构进行理智的拆分并运用新兴电路和封装技术。本工作旨在阐明设计师在构建专用可组合GPU设计时可挑选的架构。
本工作做出了以下贡献:
人们钻研了历史GPU行情趋势,并对不同的高性能计算和深度学习基准进行了详细的性能预测。大陆投资者如何购买美股由于现有GPU的特性以及将来深度学习扩展的需求,人们证明了GPU的内存带宽会成为限制基于GPU的深度学习训练与推理的关键性能瓶颈,而这一限制在大多数高性能计算中并没不会遇到。
人们提出了专用领域可组合GPU架构。大陆投资者如何购买美股COPA-GPU提供面向高性能计算和深度学习两类不同应用的GPU高层次设计重用,同时还同意对每一个领域进行特意的产品优化。人们描述启用COPA-GPU 需要的架构修改和技术前景。
人们评估了在深度学习训练和推理背景下,COPA-GPU的性能潜力,而且证明了比较大的缓存可以极大地提升深度学习推理应用的性能,要提高深度学习的训练能力,缓存和主存同时改进是非常必要的(仅针对COPA-GPU的设计而言)。大陆投资者如何购买美股
最终,人们提出了一种特定的COPA-GPU设计,将每个GPU的训练和推理性能分别提高了31%和35%,同时也显著降低了数据中心扩展GPU训练的成本。大陆投资者如何购买美股
2、 动机与背景
深度学习的商业价值是不可否定的,有大量的公司现在正在设计面向深度学习训练和推理的加快器,例如Google的TPU,Graphcore的IPU,Cerebra的WSE,Groq的TSP。大陆投资者如何购买美股这些特意化的架构不需要在其他领域维持高性能,同意他们的架构相比于现如今服务于多个领域的GPU更为高度专业化。为了更好地明白GPU和深度学习加快器设计潮流之间的差异,人们钻研了最近的GPU微缩行情趋势,预测了一个可信的将来GPU配置,现在将它与几个专用深度学习加快器之间进行较为。
2.1 深度学习架构行情趋势与预测
表1通过对比最近三代英伟达同时面向高性能与深度学习设计的Tesla GPU,总结了几种关键计算与储备系统的特征。然后,人们基于下一代GPU配置(GPU-N)做了符合微缩演进规律来预测硬件的性能。大陆投资者如何购买美股人们利用线性外推法从V100到A100的参数计算了GPU-N的计算与内存带宽。人们计算GPU-N L2的能力利用的是更小的从P100到V100的1.5倍缩放比例(而非从V100到A100的6.7倍缩放),因为GPU-N比较不可能能适用几百MB的SRAM在单一的GPU 裸片上。需要注意的是,人们并不打算尝试精确地预测将来GPU的精确配置,而是要展示预测缩放比率对计算和内存宽带的影响。表1清楚地展示了当内存带宽与单精度吞吐量之比通过GPU代数不断增加时(从P100的67倍到GPU-N的112倍),在GPU-N中内存带宽与半精度吞吐量之比被缩小到只有3.4倍。
除了几代GPU外,表1提供了几种深度学习加快器的属性。大陆投资者如何购买美股Graphcore, Cerebras和Groq产品都运用了比较大的片上SRAM作主导存,而Google TPU主存使用的是片外DRAM。跟GPU和TPU相反,有较小DRAM储备系统的深度学习加快器可以提供更高的内存带宽与半精度吞吐量之比,分别达到了IPUv2的180倍,TSP的320倍,虽然有更低的总内存容量可能无法满足深度学习应快速增长的内存需求。将来深度学习训练和推理平台的设计者一定在为了获得更佳的性能与能耗一定在使用相对较大的封装级SRAM缓存和高容量DRAM之间取得适当的平稳。
人们报道Cerebras的属性为1/84块晶圆来提供相似面积的较为。大陆投资者如何购买美股
表格1.GPU和深度学习加快器计算与储备系统行情趋势,包含一个有将来远见的GPU预测(GPU-N)
2.2 发散DRAM带宽需求
图2、 同时设置大批量和小批量,利用MLPerf深度学习训练和推理方法预测GPU-N的性能瓶颈
为了明白将来GPU的DRAM带宽需求变化,图2给出了针对GPU-N上小批量和大批量的MLPerf套件进行深度学习工作负载的模拟性能瓶颈预测(详细信息将在4.1节后面介绍)。图2给出了总履行时间的分解,每一种颜色条代表着一种硬件(或者一组相关的硬件)在履行时的性能开销。大陆投资者如何购买美股例如,蓝色的“DRAM BW”条表达了相比于无限的DRAM带宽,非理想DRAM带宽的性能开销。类似的,橙色条表达了由于非理想储备系统中全部其他部件导致的带宽与延迟上的性能损失。灰色条表达的是相比理想GPU100%利用SM(流处理器),动态SM利用不足造成的性能损失,这反映了例如非完美工作规划或者工作负载本身缺少足够的并行)(有时只是阶段性的)带来的效率低下。最终,绿色条表达了数学运算单元有关履行时间的损失,在理想情况下这些运算单元应该是100%被利用。
人们的瓶颈预测是通过逐步理想化系统的一个或多个架构特性来进行的,从DRAM带宽开端,向SM靠拢,然后利用理想系统和实际系统之间的性能差异来确定每个组件对总体性能的影响程度。人们首先从GPU-N基线开端,首先理想化DRAM的带宽来估测片外带宽不足的开销。大陆投资者如何购买美股随着DRAM带宽维持理想化,人们接着将剩余部分的内存子系统理想化,有效地模型化一个完美的GPU储备系统,全部的内存恳求都能被马上响应到SM。最终,为了测试SM由于负载不平稳或者工作量太少导致的利用不足的影响,人们模拟了GPU-N只有一个SM和一个完美的储备系统达到满载,然后将履行时间除以原始的SM数据来模拟全部SM都实现满载的情况。逐步理想化的最关键原因与一次只理想化一个组件相反,是为了明白从移除一个瓶颈到移除全部瓶颈(直到DRAM)来寻求全体潜在的性能。突出地,这些结局依靠于这些被实施的理想化步骤的顺序。然而,由于人们关键聚焦于储备系统,人们通过理想化系统的其他部分来最小化这些器件对最终性能的干扰。人们的方法与在GSI中瓶颈分解有肯定的重叠之处。然而人们的预测远超内存系统,扩展到了 SM利用和数学单元。
图2说明内存带宽实在是GPU-N上深度学习训练的关键性能限制者,在大批量和小批量情况下平均贡献了28%的全部履行时间。大陆投资者如何购买美股DRAM带宽同样还是大批量深度学习推理的关键的性能瓶颈,占用了30%的履行时间。然而,针对小批量尺寸,未良好利用的SM占用了41%的履行时间,是比DRAM带宽更关键的性能瓶颈。这是因为MLPerf小批量推理无法提供足够的并行度来填充为数据中心设计的整个GPU。此外,由于小批量推理占用内存少,每一个负载数据的关键部分可以被缓存到片上,因此DRAM带宽并非关键的瓶颈。
人们使用了相同的模拟器在不同DRAM带宽设置之间模拟融合GPU-N的配置,使用了130个来自不同源的高性能计算基准,包含CORAL和CORAL-2基准,Amber18基准,FUN3D,SPECFEM3D Cartesian,GROMAC,Laghos和RELION。大陆投资者如何购买美股如图3所示,与深度学习应用突出相反,大多数高性能计算应用针对DRAM带宽的变化一点也不敏感。当DRAM带宽增加到无限大的时候,几何平均加快了只有5%。当DRAM带宽减小的时候,0.75倍带宽和0.5倍带宽只让性能分别减小了4%和14%。这暗示假如将来面向深度学习和高性能计算领域的融合GPU依然是实际上的标准的话,将来DRAM带宽的增加很大程度上不会被高性能计算的应用利用上。
图3、不同DRAM带宽下,GPU-N配置下高性能计算应用的性能加快,虚线代表对应配置的几何加快
2.3 深度学习优化的超大缓存
因为深度学习应用的内存带宽需求很有可能会超过将来DRAM进展所能提供的,GPU设计师一定保证有替代的方法来达到达到带宽目的。大陆投资者如何购买美股从历史上看,GPU的LLC(LLC)仍相对短,因为高性能计算工作负载有良好的空间局部性,大部分的片外带宽需求由于几十兆字节的最终一级缓存的存有而被隐藏。在深度学习工作负载中数据位置跨过多个时间空间维度,导致需要更大的缓存容量。
图4、在不同LLC下DRAM流量减少,在60MBLLC的GPU-N基准下做了归一化
为了熟悉GPU-N需要多大的LLC来有效的保卫GPU的DRAM系统,人们测试了在GPU的LLC容量从60MB-4GB范围内,GPU-N与DRAM间的流量减少量。图4表明,在将LLC达到120MB双倍之后,在深度学习训练中片外DRAM流量减少了高达53%。大陆投资者如何购买美股随着LLC增加到960MB,片外带宽需求减少了82%(减少了5倍)。人们之后将会证明,从更大的缓存中减少DRAM流量与提高训练性能有很好的相关性。相比于深度学习训练,大的LLC能力针对深度学习推理更有益处,因为它们同意片上缓存更大部分的工作量权重和激活。例如,在大批量推理中,960MB的LLC能够实现DRAM流量减少16倍,而249MB的LLC由于更小的内存需求,已经足够保留全部的可用的数据重用片上数据来进行小批量的推理。
因为现代GPU已经受限于面积,再集成几百兆字节的片上LLC而不严峻牺牲其他功能是不可行的。大陆投资者如何购买美股即便能做成,这样一种架构也势必会在优化高性能计算的性能上失去平稳。因为高性能计算和深度学习工作负载针对片外GPU带宽和GPU上缓存能力有不同的敏感度,人们现在寻求可组合GPU架构的潜在优势,能够满足每个领域的特别需求,同时通弄过模块封装设计,最大化设计的可重复使用。
3、 可组合GPU架构
针对COPA-GPU架构有两个首要的目的:(1)很大程度上保留现有GPU架构最小化设计成本和最大化可重用型,(2)提供灵敏的专用化GPU内存系统来满足不同应用领域的不同需求。大陆投资者如何购买美股特殊的,人们目的是用比特性领域领域,例如比高性能计算需求更大的缓存和内存带宽来改善GPU的储备系统,从而能解锁GPU深度学习的性能。为了实现这种GPU系统能力的跨过,人们利用了封装级多芯片模块集成,将一个GPU核裸芯与不同的内存系统芯粒耦合,每个芯粒分配不同的封装级缓存和内存资源。
3.1 COPA-GPU在封装上可用分解
人们提出单片GPU分解成封装级的基础模块GPM,它能被重复利用在每一种为特定应用领域量身定制的专用化的COPA-GPU所对应的特意化的储备系统模块(Memory System Module,MSM)。大陆投资者如何购买美股针对分解GPU的关键困难是在灵敏组合的程度与高效地将GPU内的高带宽通信负载从片上转移到封装上导线的可实现性之间取得适当的平稳。
图5。大陆投资者如何购买美股 GPU多芯片模块分解在可实现性性和可组合领域特意化的挑选(a)单片GPU,(b)COPA-GPU在封装级不同分解
图5(a)描述一个通用的单片GPU架构,SM与L1缓存相连,再通过GPU片上网络衔接到L2缓存。大陆投资者如何购买美股L2缓存片依附在内存操纵器上,驱动片外DRAM内存接口。当前的片外DRAM接口只能提供几TB/s的内存带宽(GPU-N提供2.7TB/s),而GPU的片上互连被设计在SM和片上储备层之间传输几十TB/s的片上带宽。
三种可能的GPU分解挑选在图5(b)中画出。大陆投资者如何购买美股挑选(Ⅰ)是GPM+内存模块(L2缓存+内存操纵器),GPM包含SM,L1缓存和GPU片上网络,而MCM包含了L2缓存和内存操纵器。这个设计可以提供比单一掩膜版限制的裸片更有效的裸片面积和边缘来支持更大的L2缓存和更高的DRAM带宽。挑选(Ⅱ)展示的GPM+MCM(片上网络+L2+内存操纵器)类似于(Ⅰ),可是将GPU片上网络从GPM中移动到内存处理模块中。然而,挑选(Ⅰ)和(Ⅱ)是不切实际的,因为他们都要求把几十TB/s的片上网络流量来转移到封装间导线上,这将在3.5部分证明利用人们现有或者已知的技术是无法达到的。
因此,人们挑选(Ⅲ)中的GPM+内存处理系统(L3+内存操纵器)的划分方案,来寻求一种可行的COPA-GPU设计,因为它依靠于GPM中的L2缓存让GPM裸片间带宽降低到可行的程度。大陆投资者如何购买美股此外,人们意见在L2缓存和内存操纵器之间增加一个额外的L3层,将L3缓存和内存操纵器都放在MCM中。这样一种可组合设计的封装集成技术可以提供比之前L2高4倍的带宽。
3.2 COPA-GPU架构和封装
在人们提出的COPA-GPU中,架构领域定制是通过集成GPM和专用领域优化的MSM来实现的,该MSM使用2.5D或3D封装集成,可以利用平面或垂直的裸芯堆叠方法。大陆投资者如何购买美股人们考虑COPA-GPU架构选项,包含两种集成策略,同时考虑架构和封装技术挑选之间独特的相互依靠关系,提炼出每种方法的优缺点。
图6.COPA-GPU架构两种挑选2.5D和3D集成领域,(a)现在融合GPU,使用3D封装技术的COPA-GPU,没有L3(b)3D封装可组合GPU,有L3(c)2.5D封装可组合GPU,无L3(d)2.5D封装可组合GPU,有L3和更多的DRAM(可选)
图6(a)显示了一个现代GPU架构的高层顶部和侧视图,包含一个最大尺寸的GPU 裸片,裸片上有L2缓存和内存操纵器,以及通过2.5D硅中介层集成衔接的高带宽内存节点。大陆投资者如何购买美股图6(a)所示的同一图表也描述了基础的COPA-GPU的GPM,预先配备了3D集成的MSM裸片,以提供3D深度学习优化COPA-GPU变体。
图6(b)显示了一种深度学习优化的COPA-GPU的3D组合,其中来自图6(a)GPM继承了一个携带额外的L3缓存MSM。大陆投资者如何购买美股这个MSM通过高密度裸片内键合的3D超高带宽链路垂直衔接,带宽高达14.7TB/s,详见3.5节。MSM的位置处于GPU和硅中介层之间,通过硅通孔提供GPM和硅中介层全部必要的衔接,如图6(b:侧视图)。3D COPA-GPU可组合的特性同意设计者同时使用(进行深度学习)或者不使用(进行高性能计算)额外的L3缓存。3D COPA-GPU组合最关键的优点是它不能提供任何额外的裸片边缘来改善DRAM扩展。
图6(c)显示了一种基础的2.5D COPA-GPU,以高性能计算为目的在2.5D组合中集成了一个GPM和两个MSM.2.5D COPA-GPU的设计在基础的GPM上保留了大多数其原始功能,可是把内存操纵器和高带宽模块(HBM)IO接口卸载给新的(小型)封装内MSM.2.5DCOPA-GPU的好处在于可以将GPM的区域分配给内存操纵器和HBM IO接口,从而释放出裸片的面积,用于在基准的COPA-GPU内实现超高带宽链路和额外计算资源的链接。大陆投资者如何购买美股
图6(d)为图6(c)中的2.5DCOPA-GPU增加了一个大型L3缓存和额外的DRAM堆栈,但受到封装面积的限制。大陆投资者如何购买美股同样的GPM裸片在图6(c)和图6(d)之间重复使用,这种2.5D 封装的面向深度学习的优化结构与3D封装相比有几个优势。首先,它可以提供比3D封装多2倍的L3容量。其次,附加的MCM几何增加了总可用的裸片边缘的设计。使用最大尺寸的MSM(未显示),这个裸片边缘可以通过10个HBM节点提供高达1.7倍或14个高带宽站点提供高达2.3倍于HBM的带宽和更大的容量。
3.3 COPA-GPU微架构
图7。大陆投资者如何购买美股可组合fengzhuangGPU设计中L3缓存微架构
图7展示了在3D和2.5D可组合GPU设计中都提到的内存处理模块的微架构。大陆投资者如何购买美股图7(a)和(b)概述了3DCOPA-GPU加了或者没加L3内存处理模块的关键组成部分。当今GPU架构与3DCOPA-GPU之间最大的不同是增加了一个新的开关组件,可以将来自L2的恳求引导到片上储备操纵器或者超高带宽链路上,这取决于MSM是否在封装内。
假如没有MSM(图7(a)),可以配置交换模块来将内存恳求直接从L2引导到本地内存操纵器,类似于当下的GPU。假如存有MCM(图7(b)),可以重新配置交换模块通过超高带宽链接将L2后流量引导到L3。大陆投资者如何购买美股这项设计要求MSM实现与HBM IO接口相连的内存操纵器,通过增加了超高带宽链接。由于硅通孔的IO口以及GPM和硅中阶层之间的电源传输产生了硅片面积开销。在没有或者有额外的L3能力的MSM的2.5D COPA-GPU中(图7(c)和(d)),GPM良好剥离了他原本的内存操纵器和HBM IO口,而且后L2流量通过封装上的超带宽模块链接路由到MSM。这两种2.5D COPA-GPU配置包含相同的GPM,可是配置了不同版本的MSM来服务不同的应用(即有或者没有L3,以及额外的HBM节点)。
在这两种设计中,L3缓存有架构上被实现为另一个级别的内存端缓存,(假如存有)支持现有的L2。大陆投资者如何购买美股它既不包含也不排他,也不要求与L2的一致性,因为L2已经作为GPU系统的一致性点。从GPU的角度看来,L2中的线总是会取代L3中的线,当数据从L2中被移除时,会被写回L3中。假如没有首先在L2得到服务,任何恳求都不会被路由到L3。
3.4 COPA-GPU开销和好处
2.5D COPA-GPU组织的关键缺点是它增加了封装的大小。相反,3DCOPA-GPU对封装复杂性的影响最小(同上视图),但基础GPM现在一定考虑到用于垂直裸片间通信(第3.5节)的分布式裸片上超高带宽链接衔接的实现,以及用于访问MSM裸片的硅通孔开销。大陆投资者如何购买美股人们估测,在3D情况下,提供用于裸片间通信绑定的高达14.7TB/s带宽的超高带宽 I/O的成本将消耗不到4%的硅表面和金属层。3D键合下的大部分有源区和低能级金属可能会被复用于GPM中的其他逻辑。在2.5D设计中,假设20Gbps的信号速率,最大尺寸的链路导致大概6%的面积开销。第3.5节提供了关于这些假设的进一步细节。
虽然由于新的MCM通信接口,这两种COPA-GPU方法都引入了4%到6%的面积开销,但这一面积(以及成本开销)将会被面向高性能计算所节约的开销所抵消,因为它们不需要再次使用非必要且昂贵的面向深度学习的内存子系统。大陆投资者如何购买美股此外,人们信任,在将来即便是不可组合的GPU设计也会因为掩膜版限制而转向MCM组织,有效地将类似的MCM链接开销引入到全部GPU设计中。这种模块化GPU设计将来的关键挑战是其日益增长的集成复杂性,有效地将焦点从裸片上集成转移到先进的组装、测试和延续创新的封装互连和封装技术上。
然而,增加新的让内存恳求一定通过的通信接口会带来额外的能量开销。大陆投资者如何购买美股人们估测,在假设峰值带宽0.3pJ/b时被100%利用,线交换速率为25%的情况下,2.5D组织的超高带宽链接会消耗少于9瓦。而由于更有效的链接技术和总体更短的通信距离,3D链接消耗小于2瓦(详见3.5节)。
大的L3可以减少DRAM的访问次数,抵消超高带宽链接便利和L3访问的额外成本。图4说明了在960MB和1.9GB的L3配置下,分别减少的DRAM总流量高达94%和98%。大陆投资者如何购买美股人们估测从基于SRAM的COPA-GPU的L3引一条缓存线到GPM会消耗大概比访问HBM内存小4倍的能量。这些估测良好考虑了在MSM-裸片上往返到SRAM子阵列的能量,以及SRAM子阵列所消耗的能量。因此,人们估测COPA-GPU设计(使用960MB的L3缓存)将减少与HBM相关的GPU的总能耗高达3.4倍。MSM缓存模块的成本可以通过在旧的、成本较低的进程中实现来降低。
3.5 COPA-GPU使能技术
COPA-GPU的可行性取决于几种成熟的工业实现技术。大陆投资者如何购买美股
缓存技术预测:大缓存可以通过高密度嵌入式DRAM (eDRAM)或SRAM技术来实现。大陆投资者如何购买美股$IBM(IBM)$最近使用14nm的eDRAM技术在696mm2的裸片上实现了960MB缓存。Graphcore最近公布的第二代IPU集成了896MB的SRAM和数千个核心,在一个823mm2的裸片上使用TSMC的7纳米工艺。缓存密度由位单元区域、操纵开销和带宽要求的组合决策。因为COPA-GPU L3比L2设计提供较低的带宽,人们估测将来受限于掩膜版的MSM 裸片(和NVIDIA GPU A100的尺寸一样大)可以提供高达2GB的L3缓存,虽然这项工作的其余部分假设保守的预测960MB的L3在 826平方毫米裸片,这意味着在带有单个MSM芯片的3D COPA-GPU中,L3的最大值为960MB;在带有两个MSM芯片的2.5D COPA-GPU中,L3的最大值为1920MB。
高带宽2.5D和3D互联:使2.5D集成的高速衔接快速进展。大陆投资者如何购买美股Chen等人最近证明了20Gbps信号速率通过一个2.5mm硅中介层的为0.3pJ/b时,导致了~200GB/s/mm每层的带宽密度,这在短距离时能进一步增加。这项工作假设2.5D的COPA-GPU超高带宽链接有着256GB/s/mm的带宽密度,因此,826mm2的GPM模块专用模块边缘可以提供高达14.7TB/s的GPM外带宽,如图6(d)所示。虽然这个带宽针对MSM已经远远地超出了实际L3的带宽需求,但它提供了原来增加裸片外通信的进展空间。
3D集成同样不断成熟。大陆投资者如何购买美股例如TSMC的集成芯片上系统预测提供超致密3D互连以及远超1TB/s/mm2的裸片间带宽,在假设1Gbps的信号速率下。人们保守的认为3D超高带宽链接在0.05pJ/b下有512GB/s/mm2的带宽密度。要实现2.5D COPA-GPU14.7TB/s的数据带宽需要28.7mm2(小于4%)的硅面积用于裸片间通信键合。表2总结了针对2.5D和3D情况下的超高带宽链接特性。
表格2。大陆投资者如何购买美股本工作中2.5D和3D超高带宽假设下带宽与能量特性
4、 评估
人们现在展示人们的仿真方法,验证了基线COPA-GPU架构针对DRAM带宽和封装级LLC能力的性能敏感度,评估了几种具体的深度学习专用在训练和推理情况下的COPA-GPU配置。大陆投资者如何购买美股
4.1 方法学
表格3.MLPerf训练与推理基准
为了提供深度学习工作负载的性能预测,人们使用MLPerf训练和推理基准测试套件中未修改的工作负载来进行钻研,对工作负载进行端到端迭代,而非使用分别和隔离的GPU内核调用。大陆投资者如何购买美股这种方法同意人们描述总体吞吐量,并占据层间激励和L3中的权重复用,这将驱动将来GPU上的内存系统设计。MLPerf是深度学习基准测试的实际标准,由NVIDIA、goole和Intel等关键深度学习芯片供应商维护。表3显示了使用的7个MLPerf训练基准和5个推理基准,这些基准取自NVIDIA公布提供的MLPerf训练 v0.6和MLPerf推理v0.5。这些代码通过利用高吞吐量的Tensor Cores对NVIDIA GPU进行了高度优化,并证明了从单个GPU到数千个GPU的性能可伸缩性。
为了构建将来深度学习场景的完整图景,人们在两种不同的配置中运作全部深度学习基准。大陆投资者如何购买美股针对深度学习训练,人们使用较大的per-GPU批来表征单GPU训练情况,使用较小的per-GPU批来表达大规模训练系统。针对深度学习推理,人们使用较大的per-GPU批来表达具有大量并发查询的数据中心处理推理任务,而针对具有实时处理需求的延迟敏感场景,使用较小的per-GPU批来表达。虽然在人们评估的这篇文章中小批量的推理工作负载是不太常见的大型数组中心组GPU,人们出于完整性把他们纳入人们钻研的一部分,因为随着考虑将来GPU设计可以按比例缩小(总的来说),能以传统或COPA-GPU形式构建niche-specific GPU产品,同时也有很多最近的工作关心于对延迟敏感的深度学习工作负载的高效小批量推理。
人们为每个场景挑选的批处理大小取自NVIDIA提交的MLPerf,如表3所示。大陆投资者如何购买美股在人们的评估中,人们在单个NVIDIA Tesla V100上履行每个应用程序,并从完整的端到端迭代中收集GPU履行跟踪。在预测大规模深度学习训练的性能时,人们专心于per-GPU工作负载预测,忽略了all-reduce的同步开销。All-reduce性能很大程度上取决于GPU间网络的实现,这超出了本工作的范围,但也受到了架构界的关心。
人们使用修改后NVIDIA的NVArchSim来模拟这些工作负载。大陆投资者如何购买美股NVArchSim为应用程序确实定性部分提供了比较快速的模拟,而不会在不确定性的应用程序阶段牺牲模拟的精确性或准确性,而且针对人们在本工作中关心的MLPerf工作负载具有很高的精确性。人们的预测聚合预测如表4中描述的GPU-N配置上。在SM频率不变的情况下,GPU-N的SM计数增长超过NVIDIA A100,与预测的单精度吞吐量(从表1)成比例。GPU-N的DRAM容量的预测是基于类似于对DRAM带宽所做预测的线性外推。
表格4.GPU配置详细信息
4.2 深度学习性能对DRAM带宽敏感度
人们对基础的不使用L3(类似于GPU-N)的COPA-GPU设计的DRAM带宽设置进行了详细的扫描,从其标准带宽(1.3TB/s)的一半一直到无限带宽。大陆投资者如何购买美股图8总结了以2.7TB/s基线归约的总性能。在大多数训练和推理场景中,工作负载性能随着DRAM带宽增长到3 × BW (8.1TB/s)时稳定增长,超过这一点回报就会递减。小批处理推理应用程序对DRAM带宽不太敏感,因为它们的占用空间相对较小(详见4.3节),而其余的深度学习训练和推理工作负载表明,即便将DRAM带宽从2.7TB/s增加1.5倍到4TB/s,训练和推理的速度也会分别显著提高18%和21%。
图8、针对大批和小批设置,不同DRAM带宽下基础COPA-GPU的性能,性能归约到了基线GPU-N的性能
人们注意到,一些应用程序在小批场景下对DRAM带宽更敏感,而另一些应用程序在大批场景下对DRAM带宽更敏感。当批大小改变时,有多个因素决策应用程序对DRAM带宽的敏感性。大陆投资者如何购买美股一般来说,更小的批处理大小意味着在批处理维度上更少的数据重用,从而降低应用程序的计算强度(FLOPS/byte),并使其更受内存限制。因此,小批量设置将对DRAM带宽更敏感。然而,更小的批处理尺寸也可能导致进一步的SM未充分利用,如图2所示,这将导致更低的DRAM带宽压迫。此外,针对内存占用较小的应用程序(如表3所示),更小的批处理大小还同意将更大一部分模型数据(激活和权重)储备在片上,从而减少DRAM带宽压迫。应用程序对带宽的敏感性受到全部这些因素的影响,因此在不同的应用程序中可能有所不同。
从这些结局中,人们得出结论现在GPU正在受到DRAM带宽的严峻限制,额外的原始DRAM带宽是扩展DL性能的最强大的工具。大陆投资者如何购买美股然而,由于HBM内存频率和引脚密度的不断改进,不太可能提供比人们积极预测的1.7倍(针对GPU-N)更高的带宽缩放比,人们寻求了一个比较大和高带宽的封装上缓存的潜力,以在将来的COPA-GPU中弥补这一差距。
4.3 深度学习对缓存容量的敏感性
为了明白大型缓存对将来GPU中DRAM带宽减少的影响,人们将基础的无L3的COPA-GPU的LLC (L2)缓存容量从60MB扫到3840MB。大陆投资者如何购买美股一块完美的L2,全部恳求都在L2缓存中命中,这是性能的上限。图9显示了这些不同L2配置的性能,归约化到60MB基线。增加L2容量带来的性能增益相当于DRAM带宽的大幅增加,这关键是因为显著的片外DRAM流量减少,如图4所示。
图9、针对大批和小批设置,不同LLC容量下基础COPA-GPU的性能,性能归约到了基线GPU-N的性能
针对深度学习训练,480MB的L2比增加1.5倍的DRAM带宽表现略差,960MB的L2比增加2倍的DRAM带宽表现略差(与图8相比)。大陆投资者如何购买美股然而更大的L2缓存再次不断地提高能改善性能,可是,与完美的L2相比,即便是3840MB的L2在大批和小批的深度学习训练工作量方面仍会产生8%和13%的性能差距。因为深度学习推理应用程序通常比深度学习训练占用的内存更小,所以一旦缓存了全部工作负载数据,性能就会饱和。针对大批推理和小批推理,饱和点分别为1,920MB和240MB,对应于表3中列出的内存占用。
人们得出的结论是,一个相当大的LLC是一个有吸引力的解决方案,以提高在COPA-GPU中深度学习的性能;然而,要将性能差距缩小到完美的L2将需要4GB的封装缓存,即便在激进的技术预测下,这还是不切实际的。大陆投资者如何购买美股结局是,为了最大限度地提高深度学习的性能,COPA-GPU不仅一定利用一个比较大的L3缓存,而且还一定通过附加的MSM 裸片边在2.5D COPA-GPU设计中结合大L3和更高的DRAM带宽才可行。
4.4 用COPA-GPU扩展深度学习性能
表5总结了深度学习优化的COPA-GPU配置,这些配置是在第3节中概述的架构挑选中使用的。大陆投资者如何购买美股COPA-GPU-1设计通过3D叠加单个最大尺寸MSM 裸片或2.5D叠加两个最大尺寸MSM 裸片的提供960MB的L3缓存,每个都设置为最大裸片尺寸的一半。具有更多HBM资源的COPA-GPU-2选项仅适用于2.5D,通过利用额外的MSM 裸片边面积提供1.7倍大的HBM带宽和更大的HBM容量(总共10个HBM站点)。在2.5D堆叠场景中,使用两个最大尺寸的MSM 裸片,L3缓存容量和额外的DRAM带宽可以分别扩展到1920MB和基线DRAM带宽的2.3倍(通过14个HBM站点)。因此,人们考虑了三种额外的具有1,920MB的L3缓存和不同的HBM资源的COPA-GPU配置:COPA-GPU-3、COPA-GPU-4和COPA-GPU-5,分别具有2.7TB/s、4.5TB/s和6.3TB/s的DRAM带宽。
表格5.COPA-GPU架构参数
图10。大陆投资者如何购买美股具有L3缓存的不同超高带宽链接带宽下COPA-GPU的性能,性能归一化到基线GPU-N性能
在转移到总体结局之前,人们首先预测UHB封装上链路带宽需求,通过扫描COPA-GPU-1配置中的单向L3的带宽,从其基线DRAM带宽(0.5 × RD + 0.5 × WR,总和为2.7TB/s)的一半扫到无限带宽。大陆投资者如何购买美股图10总结了MLPerf应用程序(训练和推理)的几何平均加快,归一化到基线GPU-N(不含L3)。当L3带宽从0.5 x RD + 0.5 x WR增加到2 x RD + 2 x WR时,性能有了显著的提高,而且在此点之后递减。总的来说,2 x RD + 2 x WR(总10.8TB/s)的超高带宽模块的带宽配置下的性能是无限带宽配置下的3%(训练)和6%(推理)之内。这一带宽良好在人们设计中假设的下一代2.5/3D互连技术的能力范围内。
人们还评估了超高带宽链路延迟的影响,方法是将L2和L3缓存之间的总往返延迟从0.25倍调整为1倍的DRAM访问延迟。大陆投资者如何购买美股人们的实验(未显示)表明COPA-GPU架构对L3延迟不敏感,因为在这个延迟范围内性能变化不到2%。因此,人们设置了超高带宽链路的带宽为2×RD + 2×WR,总共10.8 TB/s,以及针对全部列在表5中的COPA-GPU配置而言,L2和L3之间的往返延迟(超高带宽链接延迟+ L3访问延迟)是DRAM访问延迟的一半。
图11。大陆投资者如何购买美股不同设计下深度学习优化的COPA-GPU的性能,性能以GPU-N归一化。大批和小批情况分别标注为lb和sb
图11总结了在大批(lb)和小批(sb)设置下COPA-GPU设计的MLPerf训练和推理性能。料事如神,更大的缓存容量和更高的内存带宽普遍提高了大批和小批训练的性能。大陆投资者如何购买美股例如,COPA-GPU-1中额外的缓存容量分别提高了大批和小批性能21%和18%,使其成为一个有吸引力的3D COPA-GPU设计。此外,COPA-GPU-2配置提供的额外HBM带宽实现了31%和27%的总体加快,使其成为一个有吸引力的2.5D COPA-GPU设计挑选。COPA-GPU-3有两倍的L3容量,而非增大DRAM带宽,因此在大批和小批场景下的提速都比COPA-GPU-2低(4%),这表明在单独增加L3容量并非提高深度学习训练性能的最佳方法。最终,与COPA-GPU-2相比,DRAM选项,如COPA-GPU-4和COPA-GPU-5的性能提高幅度很小(4%),而且不能证明这些系统的额外成本是合理的。
针对大批推理,COPA-GPU-1的大L3容量提高了29%的性能,COPA-GPU-3可以达到高达40%的加快。大陆投资者如何购买美股针对1920MB的L3,进一步增加HBM带宽是没有好处的,因为大多数DRAM流量已经通过大的L3缓存被过滤了。事实上,虽然没有显示,人们发觉DRAM带宽乃至可以减少50%而不影响性能。针对小批量推理,由于性能饱和点在240MB LLC,通过L3和HBM组合的性能提升仅9%。
总的来说,人们得出结论,COPA-GPU-2结合了极大的L3缓存(960MB)和适度升高的DRAM带宽(4.5TB/s),可能是最优的COPA-GPU设计,它在深度学习训练(大批获得31%增益,小批获得27%增益)和推理(大批获得35%增益,小批获得8%增益)方面表现良好,而不会因内存资源的过度配置而增加显著的不必要成本。大陆投资者如何购买美股与深度学习训练相比,推理对缓存容量更敏感,对DRAM带宽更不敏感。假如设计一个特意用于深度学习推理的COPA-GPU,那么用额外的HBM资源来换取LLC容量的增加可能是一个合理的策略。
一个大的支持COPA-GPU的L3减少了与DRAM相关的per-GPU的总能耗高达3.4倍,如3.3节所示。大陆投资者如何购买美股然而,改进的深度学习优化COPA-GPU利用率可能会导致总体设计功耗的提高,而这可能不会被内存系统的功耗降低良好缓解。为了缓解不断增长的热密度,人们估计将来的高端GPU系统与今天的技术相比将依靠于液体冷却技术来支持不断增加的热度。
4.5 COPA-GPU在规模上训练的成本效率
在规模上,多GPU的训练性能最终会受到per-GPU计算效率降低和系统级同步开销增加的限制。大陆投资者如何购买美股为了明白深度学习优化的COPA-GPU的向外扩展效率,人们将基于COPA-GPU -2的系统与2倍和4倍大系统组成的基线GPU-N的性能进行了较为。人们在全部配置中固定全局批量大小,以维持相同的统计效率。因此,per-GPU批大小下降到1 / 2和1 / 4的基线GPU-N配置。人们没有在更大的范围内推断分布式梯度同步的额外开销,因此人们的预测支持于2倍和4倍的GPU-N配置。
图12。大陆投资者如何购买美股深度学习优化的COPA-GPU-2设计与数据并行通过2xGPU-N和4XGPU-N性能较为,性能都以基线GPU-N的性能做归一化
图12显示,将基准GPU-N实例(2倍GPU-N和4倍GPU-N)的数量双倍和四倍,针对人们的训练工作负载,平均性能分别提高29%和43%。大陆投资者如何购买美股人们发觉,深度学习优化的COPA-GPU-2配置(性能提高27%)提供了与2倍GPU-N类似的性能水平,但与购买并安装2倍大的传统GPU-N相比,成本要低得多。值得注意的是,在小批处理设置中,maskrcnn已经达到最小批处理大小1,因此进一步将数据并行将没有帮忙。一般来说,较少内存限制和利用更多内部并行性的应用程序将从数据并行性中获益更多。
与GPU-N相比,虽然COPA-GPU-2增加了近826mm2的硅,面积增加了一倍,但它仍由常规SRAM缓存阵列主导,由于内置的冗余和错误复原,估计将实现高生产量。大陆投资者如何购买美股此外,总的区域被分成两个较小的裸片,从而大大降低了每平方毫米的成本。COPA-GPU-2集成了1.6倍的HBM内存资源,降低了GPU-N总成本的两倍。因此,深度学习优化的COPA-GPU将在规模上提供更好的性价比,不仅节约了GPU的总体成本,还节约了额外的系统级附属品,如数据中心的空间、cpu、网络交换机和其他外场设备。
5、 相关工作
利用高容量和高带宽的片上和晶圆上缓存或临时储备器来储备深度学习权重和激励已经在深度学习训练/推理架构中得到了很好的寻求。大陆投资者如何购买美股DaDianNao设计了36MB的片上eDRAM来缓存模型权重。谷歌的TPUv1分配了28MB的片上内存,关键用于缓存激活,而TPUv2和TPUv3将其增加到32MB,然后TPUv4i进一步将其增加到144MB。最近的深度学习加快器,如Graphcore的IPU、Groq的TSP、阿里巴巴(01688)的HanGuang和Cerebras的WSE,用数百MB的高带宽片上SRAM取代了片外内存,以满足不断增长的内存带宽需求。与针对深度学习工作负载进行高度调整的专用领域加快器不同,COPA-GPU在应用程序域之间提供了高水平的GPU设计重用,同时还为各个领域提供了专用的内存系统。
多芯片模块(MCM)封装已经被广泛钻研和部署,以将异构和同质芯片集成在一个封装中,帮忙各种传统GPU和CPU应用程序扩展计算和内存带宽。之前的工作聚合在开发MCM-GPU架构,通过利用封装上和板上集成技术,实现超越单个单片裸片的限制的强大GPU性能。大陆投资者如何购买美股在后续工作中,作者用高级缓存和HW/SW缓存一致性协议扩展了MCM-GPU架构,以克服NUMA的限制。MCM-3D-NoC解决了有源中阶层上MCM集成的互连可扩展性问题。在CPU领域,最新的AMD CPU架构利用多模块板载集成来提供可扩展和模块化的CPU架构。最终,Kannan等人提出将大型单片CPU设计分解为较小的芯片以降低成本,作者提出并量化了使用粒度专用领域chiplet的MCMs进行深度学习推理的成本和收益。
通用CPU SoC已经利用MCM设计与比较大的封装级eDRAM缓存。大陆投资者如何购买美股Intel通过将CPU SoC和128MB的封装eDRAM组合为牺牲告知缓存来提高移动级CPU性能,IBM使用960MB的L4 eDRAM缓存来提高其Gen-z主机的性能。
而COPA-GPU利用从前提出的对封装集成和大型缓存的概念,人们的工作是:(1)首先识别和解决基于单精度的高性能计算和基于半精度的深度学习的工作负载之间在GPU内有不同架构需求,(2)领先开发可重用的GPU的体系结构概念,实现为高性能计算和深度学习领域专业化的具有成本效益的GPU。大陆投资者如何购买美股
6、 总结
在这项工作中,人们证明了对高性能计算和深度学习应用领域之间分别的架构需求,使得融合GPU设计在深度学习方面突出不足,而在面向高性能计算时存有过度设计。大陆投资者如何购买美股人们提出了一种新的可组合GPU架构,它利用了新兴的电路和封装技术在实现特意化的同时维持了产品线之间的兼容性。人们证明了COPA-GPU架构可以挑选性地部署封装缓存和片外DRAM资源,同意制造商轻松地针对各个领域定制设计。人们的预测表明,深度学习优化的COPA-GPU将提供令人印象深刻的per-GPU训练和推理性能的改进,同时依然有效地支持针对高性能计算设计的按比例缩减。深度学习优化的COPA-GPU还将通过最小化实现针对提高训练性能所需的GPU数量来降低数据中心成本,使COPA-GPU成为一个有吸引力的范例,可以在不针对任何特定领域过度优化产品的情况下提高单个和总体GPU性能。
量化小白浙江杭州
做梦
股海空仓玩多姣河北高碑店
[献花][献花][献花]
金牌888888888辽宁北票
高开低走每次都没有错,只要利好就赶快清仓跑
基民JO4Vwt贵州清镇
特大利好
基美人更美辽宁庄河
手动点赞
夜未央168四川雅安
好!先让人民币债券国际化。
佛山老杨黑龙江绥芬河
美股跌无所谓,A股升就行!
上海小啊叔河北廊坊
今天就打脸,相信鸡狗,母猪会上树。
lin_xx黑龙江绥芬河
明天涨停!
斯特凡大公阁下辽宁凌海
信你了,每天都有曙光。
mp25124203436909辽宁朝阳
呵呵
上一篇:投资美股手续_特斯拉TSLA.US首席履行官埃隆马斯克Elon
下一篇:大陆怎样投资美股:Nikola已经烧掉了三分之一的现金