人工智能工作负载将给网络前所未有的性能和容量需求,和一些网络厂商联手提高今天的以太网技术,以处理人工智能所需的规模和速度。
AMD,芒、博通、思科、Eviden HPE,英特尔,元与微软宣布超以太网财团(UEC),一组由Linux基金会的努力开发物理、链接、运输和软件层以太网的进步。
这个行业以太网的50周年庆祝今年。以太网的标志是其灵活性和适应性,和古老的技术无疑将发挥关键作用时支持人工智能基础设施。但有人担心,今天的传统网络互联不能提供所需的性能,规模和带宽来跟上AI的要求,和联盟旨在解决这些担忧。
“人工智能工作负载要求网络数据,计算密集型。工作量太大,参数分布在成千上万的处理器。大型语言模型(llm)如GPT-3钦奇利亚,和棕榈,以及推荐系统如DLRM深度学习建议和DHEN(深度和层次整体网络)训练许多1000年代的集群gpu分享“参数”与其他处理器参与计算,“写芒CEO Jayshree Ullal博客对新财团。“在这个compute-exchange-reduce周期,交换的数据量是如此重要,以致任何经济放缓是因为可怜/拥挤的网络可以严重影响人工智能应用程序的性能。”
历史上,唯一的选择连接处理器和内存等互联InfiniBand, PCI Express,远程直接内存访问/以太网和其他协议连接计算集群可以卸载,但当涉及到人工智能工作负载需求限制。
“芒和超以太网联盟的创始成员相信现在是时候重新考虑和替换RDMA局限性。传统RDMA所定义的InfiniBand贸易协会(IBTA)几十年前,显示出它的年龄在高度要求AI /毫升网络流量。RDMA传输数据块的大流动,和这些大型流链接,可能会导致不平衡和负担过重”Ullal写道。
“是时候开始从零开始建立一个现代传输协议支持RDMA新兴应用,“Ullal写道。“(财团)UET(超以太网传输)协议将把以太网/ IP的优点同时解决人工智能网络规模应用,端点和过程,和维护开放标准和多供应商的互操作性的目标。”
的UEC在一份白皮书中写道它将进一步以太网规范功能的核心技术和功能,包括:
- 多路径和包喷洒,以确保人工智能工作流同时访问一个目的地。
- 灵活的交货单,以确保以太网链接是最佳平衡;命令只是执行当人工智能工作负载需要在超宽带视频业务。
- 现代拥塞控制机制以确保避免热点和人工智能工作负载均匀地分散在多路径负载。他们可以设计结合多路包喷涂工作,使可靠的人工智能交通运输。
- 端到端遥测管理拥塞。信息来自网络的参与者可以建议位置和交通拥堵的原因。缩短拥堵端点允许信号路径和提供更多的信息更具响应性的拥塞控制。
UEC表示将增加规模,以太网网络的稳定性和可靠性以及改进的安全性。
“UEC运输包含网络安全设计和可以加密和验证所有网络流量发送计算端点之间在一个人工智能培训或推理的工作。UEC将开发一个传输协议,利用证明有效的会话管理,核心技术认证,并从现代保密加密方法IPSec和PSP等“UEC写道。
“随着就业的增长,有必要支持加密没有膨胀主机和网络接口的会话状态。在服务,UET包含新的密钥管理机制,允许高效的成千上万的计算节点之间共享的密钥参与工作。设计是有效地实现所需的高速度和尺度人工智能训练和推论,“UEC表示。
说:“这不是改革以太网J梅斯博士的主席超以太网财团,在一份声明中说。“这是对工作负载调优以太网来提高效率与特定的性能要求。我们看着每一层——从物理通过软件层,找到最好的方法来提高效率和性能在规模。”
需要改进的智能连接技术开始出现。例如,在最近的“数据中心2023年7月5年预测报告,“Dell '2020欧洲杯预赛 oro集团表示,20%的以太网数据中心交换机端口将连接到2027年加速服务器支持人工智能工作负载。新生成人工智能应用的兴起将有助于推动更多的增长已经健壮的数据中心交换市场,预计将超过1000亿美元的累计销售在未来5年内,在Dell ' oro副总裁Sameh Boujelbene2020欧洲杯预赛说。
在另一个最近发布的报告,650年集团表示,AI /毫升把大量的带宽性能要求的网络,和AI /毫升为数据中心的一个主要增长引擎切换下一个五年。2020欧洲杯预赛
“在人工智能与带宽增长,部分以太网开关连接到AI /毫升和加速计算将从今天一个利基迁移到2027年市场的很大一部分。我们将看到发货记录在800 gbps开关和光学产品尽快达到规模生产地址AI / ML,“创始人和技术分析师Alan Weckel说650组。