一个新的白皮书从谷歌公司的细节使用的光学电路开关机器学习培训的超级计算机,称TPU v4模型与交换机提供了改进的性能和能源效率比通常的处理器。
谷歌的张量处理单元——公司的人工智能的基本构建块超级计算系统——本质上是asic,也就是说,它们的功能是建立在硬件层面上,而不是通用cpu和gpu用于许多人工智能培训系统。白皮书细节如何,通过互连4000多tpu光学电路交换,谷歌已经能够实现比先前的模型速度快10倍,同时消耗少于一半的能源。
目标为AI性能,价格突破
根据白皮书,关键是光电路交换方式(执行开关的Google自己的设计)使系统互连拓扑结构的动态变化。而系统Infiniband,常用在其他高性能计算领域,谷歌表示,其系统更便宜,更快,更节能。
“两大建筑特色的TPU v4小成本,但巨大的优势,”该报称。“SparseCore(数据流处理器)加速(深度学习)模型的嵌入5 x-7x通过提供一个数据流sea-of-cores架构允许嵌入被放置在128 TiB的物理内存的TPU v4的超级计算机。”
根据彼得·Rutten IDC研究副总裁,谷歌的论文中描述的效率在很大程度上是由于所使用的硬件的固有特点,精心设计asic几乎是由定义更适合他们特定的任务比通用处理器试图做同样的事情。
“asic非常性能和能源效率”,他说。“如果你钩到光学电路开关,您可以动态地配置网络拓扑中,你有一个非常快的系统。”
虽然白皮书中描述的系统只有在这一点上,谷歌内部使用Rutten指出,技术涉及到的教训可以为机器学习培训有广泛的适用性。
“我认为它有意义,它提供了一种最佳实践场景中,”他说。“这是一个替代gpu,所以从这个意义上说这绝对是一件有趣的工作。”
Google-Nvidia比较不清楚
TPU v4相比,谷歌还使用Nvidia的A100 gpu的性能系统,这是常见的HPC组件,Rutten指出,Nvidia已经释放更快H100处理器,这可能减少任何系统之间的性能差异。
“他们把它比作一个older-gen GPU,”他说。”但最终它并不重要,因为它是谷歌内部流程开发人工智能模型,它适用于他们。”