如果网络是将艾城的全功率需要高性能的组合连接,没有包丢失
令人担忧的是,今天的传统网络互联不能提供所需的规模和带宽来跟上AI请求,副总裁马丁·赫尔说云巨头和产品管理与芒网络平台。历史上,唯一的选择连接处理器和内存等专用互联InfiniBand, PCI Express和其他协议连接与分流计算集群,但在大多数情况下,不使用人工智能及其负载要求的设计方案。
芒AI脊柱
为了解决这些问题,它调用AI脊柱芒正在开发一种技术,它要求与深度数据包缓冲区数据中心交换机和网络软件提供实时监控消息灵通的管理缓冲区和有效地控制交通。
“我们开始看到一波又一波的基于人工智能的应用程序,自然语言,机器学习,涉及到一个巨大的摄入数据分布在成百上千的processors-CPUs GPUs-all计算任务,切成碎片,每个处理他们的作品,并再次发送,”赫尔说。
”,如果你的网络是有罪的流量,这意味着人工智能工作负载的启动延迟因为你要重新发送它。如果在处理这些人工智能工作负载,交通,来来往往,从而降低了人工智能的工作,他们可能会失败。”
AI脊柱结构
芒的AI的脊柱是基于7800年r3系列数据中心交换机,而在高端支持460真沸点的交换容量和数以百计的40 gbps, 50 gbps, 100 gbps,或400 gbps接口以及384 gb的深度缓冲。
“深度缓冲区是保持交通畅通的关键,不放弃任何东西,”赫尔说。“有些担心延迟大的缓冲区,但我们的分析不显示,发生在这里。”
AI脊柱系统将由芒的核心网络控制软件,可扩展操作系统(EOS),使高带宽,无损,低延迟,基于以太网的网络互连成千上万的gpu速度100 gbps, 400 gbps,和800 gbps缓冲区分配方案,根据一项白皮书AI的脊柱。
帮助支持,开关和EOS包创建一个织物,分裂的数据包,并为统一尺度细胞,“喷洒”均匀布料,根据芒。目的是确保平等获取所有可用的路径在织物和零丢包。
“基于单元的织物不关心前面板连接速度,使混合和匹配100克,200克,400克的小问题,“芒写道。“此外,细胞结构使它不受流碰撞的以太网结构的问题。分布式调度机制中使用的开关,以确保公平流量争夺进入拥挤的输出端口”。
因为每个流使用任何可用的路径到达目的地,面料非常适合处理交通拥挤的“大象流”常见的AI /毫升的应用程序,因此,“没有内部网络中的热点,“芒写道。
AI脊柱模型
解释如何AI脊柱,芒的白皮书提供了两个例子。
首先,专用leaf-and-spine设计与7800年代芒与可能数以百计的服务器机架,EOS的智能负载平衡功能将控制服务器之间的流量,以避免碰撞。
QoS分类、显式拥塞通知(ECN)和优先级流量控制(PFC)阈值配置在所有开关,避免丢包情况。芒EOS的延迟分析仪(LANZ)确定合适的阈值,以避免丢包情况的同时保持高吞吐量,允许网络规模同时保持预测和低延迟。
第二个用例,可以扩展到数以百计的端点,连接所有的GPU模式直接进入7800 r3开关在AI的脊柱。结果是一个织物提供所有端点之间的单跳,降低延迟,使一个单一的,大,无损网络不需要配置或调优,芒写道。
网络智能的挑战
需要AI脊柱结构主要是由技术驱动和应用程序服务器虚拟化等,集装箱多重云计算应用程序Web 2.0,大数据,高性能计算。“优化和增加这些新技术的性能,分布式扩展,deep-buffered IP织物已被证明提供一致的表现尺度支持极端东西方的交通模式,“芒写道。
虽然它可能是早期,大多数企业担心处理大规模人工智能集群工作负载,一些较大的环境以及超大型金融、虚拟现实、游戏、汽车发展网络已经准备交通中断可能会导致在传统网络。
随着人工智能工作负载增长他们对规模和网络带宽的压力不断增加,而且对正确的存储和缓冲深度,有可预测的延迟,大象和处理两个小数据包流,Jayshree Ullal,芒最近告诉一个公司的首席执行官高盛(Goldman Sachs)技术聚会。“这需要一个巨大的工程,使传统以太网作为后端网络运行支持这种技术对未来和日益增长的使用400克将添加额外的燃料,这种发展,“Ullal说。