高带宽内存(HBM)提供了令人印象深刻的性能收益

足球竞猜app软件 |

它通常厂商竞相推出改进现有的产品线,但偶尔一个真正颠覆性技术。其中一个颠覆性技术,开始找到自己的方式进入企业2020欧洲杯预赛数据中心,高带宽内存(HBM)。

HBM明显快于现任内存芯片技术,耗能更低,占用更少的空间。它变得特别流行等资源密集型的应用程序高性能计算(HPC)和人工智能(AI)。

然而,主流采用运行日常业务应用程序仍然是一个因为HBM是昂贵的方法,可以创建热管理问题,可能需要某些应用程序被重写。

HBM是如何工作的呢?

HBM就是创造了美国芯片制造商AMD和SK海力士韩国内存芯片供应商。开发始于2008年,2013年公司将规范电平财团,半导体行业的标准组织。HBM2标准批准,2016年HBM3 1月份正式宣布。HBM内存芯片的主要制造商今天是韩国的三星,SK海力士和微米技术。

HBM旨在解决滞后性能和标准动态随机存取存储器(DRAM)的力量,相比中央处理单元(CPU)和图形处理单元(GPU)的性能。最初的解决方案是把更多的DRAM和填充的问题与更多双列直插式内存模块主板插槽(DIMM),也称为内存插槽。

但问题并不是记忆本身,但在公共汽车。标准的DRAM巴士从4 - 32位宽。HBM总线是1024 -位宽;128倍,根据乔Macri),在AMD产品公司副总裁兼首席技术官,以及协作开发的HBM内存。使用汽车的类比,它可以处理更多的汽车,单行道路或16-lane路吗?

除了扩大公共汽车为了提高带宽,HBM技术缩短了内存芯片和堆栈的大小在一个优雅的新的设计形式。HBM芯片是小相比,图形双倍数据速率(GDDR)内存,它最初被设计成替换。1 gb GDDR内存芯片和占据672平方毫米35平方毫米1 gb的HBM。

而不是传播的晶体管,HBM堆放高12层,与一个互连技术称为“通过硅通过”(TSV)。HBM芯片的TSV贯穿各层电梯运行通过一个建筑,大大降低数据位需要的时间旅行。

与HBM坐在旁边的基质对CPU或GPU,更少的电力需要CPU / GPU和内存之间移动数据。CPU和HBM直接对话,消除DIMM棒的必要性。

“(我们)的想法而不是非常窄,非常快,非常宽,非常慢,“Macri说。

产品管理高级主管Paresh Kharya加速计算英伟达说,标准DRAM是不适合HPC使用。DDR内存可以接近HBM记忆的表现,但“你必须有很多的整体,它不是最优”的能源效率。

第一个供应商使用HBM HPC是富士通,其基于arm A64FX处理器为HPC的任务而设计的。的Fugaku超级计算机由顶部的A64FX推出超级计算机500强名单的2020年,一直以来。

英伟达使用HBM3即将到来料斗GPU,而即将到来的优雅的CPU使用LPDDR5X技术,DDR导数。AMD在其本能使用HBM2E MI250X加速器(基于GPU技术)和英特尔计划使用HBM一些蓝宝石的急流代Xeon处理器的服务器,以及GPU旧桥为企业加速器。

技术的历史开始流血的边缘和工作进入主流。液体冷却开始作为一个边缘概念,主要使用的玩家试图紧缩尽可能多的CPU的性能。现在每个服务器供应商提供液体冷却处理器,尤其是人工智能处理器。

所以可以HBM内存就主流了?HBM Macri估计价格差异和DDR5能力超过2比1。换句话说,1 GB的HBM 1 GB DDR5两倍的成本。所以他的原因,如果你要支付额外的内存,你会想要一个投资回报。

“在TCO方程,性能是分母,所有的成本都在分子上。如果你得到双重性能,提高两倍的TCO。所以性能改善TCO是最好的方式,”他说。论证他补充说,为了简单起见,假设成本持平。

首席分析师丹尼尔·纽曼Futurum研究,并不希望HBM主流有两个原因,第一是成本。“你有一个鸡和蛋的事,如果它是昂贵的,那么它不会被广泛使用在一个广阔的市场。这就是要减少船的数量,”他说。

另一个问题是热。现在,除了一个CPU,需要冷却,你有五个或更多的内存芯片,共享相同的冷却器。“这意味着处理器消散的权力,所有在一个很小的包,所以你会有一个热的问题。每个处理器使用HBM有非凡的热管理,”纽曼说。

底线是,如果你部署这些加速器AI和HPC,预期结果和收购成本和操作相匹配。

通过这种新的内存模式,问题就变成了,HPC和AI自动利用HBM记忆的全部或进行了重新架构是必需的吗?一切取决于你如何构建您的应用程序第一次,专家说。

“应用程序开发人员常常工作在系统可以提供的局限性。所以有时候你必须重新设计,或者更新您的应用程序以占可用的新功能,“Kharya说。

Macri)说,如果一个应用程序内存带宽约束,那么它只会更快并且不需要重写。如果是内存延迟绑定,那么它不会更快除了HBM之间固有的延迟增量和记忆你比较。这个应用程序需要重写的依赖性导致延迟绑定。

他还表示,如果系统加载同时与许多应用程序然后HBM系统可能会有更好的性能,即使应用程序latency-bound。这是由于这样的事实:HBM加载延迟将会降低。

Kharya同意,这取决于应用程序是如何写的。如果现有的应用程序工作在各种限制,如记忆或延迟,那么开发人员必须“重新设计或更新他们的应用程序可用帐户的新功能,通常当任何新的计算架构出现,”他说。

另一个问题是处理器体系结构。首席分析师吉姆•方便的客观分析,指出HBM单指令,使用多个数据(SIMD)处理器,这比正常的服务器处理器程序完全不同。X86和Arm不是SIMD,但gpu。

“任何程序已经运行在一个正常的处理器必须重新配置和利用SIMD架构重新编译。这不是HBM改变事情,但是处理器类型,”他说。

市场上的当前版本HBM HBM2E,但今年1月,电平HBM3公布最终的规范。HBM3运行在较低的温度比HBM2E相同级别的操作电压。

还HBM3双打per-pin数据速率随着HBM2 6.4 gb / s的数据传输速率。还双打独立渠道的数量从8到16日,还有其他性能增强。

所有主要的记忆players-SK海力士、三星和Micron-are HBM3,和产品会慢慢开始进入市场,今年开始与Nvidia的料斗GPU。现在,HBM使用似乎是处于高端的性能用例。

“有一系列的工作负载,我们设计了这个CPU (Grace)这并不是设计运行Excel和Microsoft Office例如,但发光在数据中心的应用程序空间,“Kharya说。

下一个读这篇文章:

安迪Patrizio是位于南加州的自由记者计算机行业20年,已经建立了覆盖每一个x86 PC他曾经拥有,笔记本电脑不包括在内。