AristaEtherlink技术将支持各种产品,包括800G系统与线卡,并将与UltraEthernet财团规范兼容
Arista网络提供它期望如何推出以太网技术支持网络处理AI工作需求
新建Arista Etherlink平台将包括800G系统与线卡,基础是公司EOS操作系统 — — 归根结底将包括超充电Ethernet特征与UrtraEthernet财团规范相容博客邮箱UEC完成扩展提高EthernetAI工作量时Arista向客户保证,我们可以提供UEC兼容产品,很容易升级到UEC公司2025年的标准中去,Ullal写道
UEC去年由AMD创建阿里斯塔Broadcom公司、Cisco公司、Eviden公司、HPE公司、Intel公司、Meta公司和微软公司等现包括50多个商.财团正在开发技术,目的是提高以太网网络的规模、稳定性和可靠性,满足AI高性能联网需求今年晚些时候,它计划发布官方规范,侧重于各种可缩放以太网改进工作,包括更好的多路和包交付选项以及现代拥塞和遥测特征
遍历AristaEtherlink组合,UEC兼容特征包括动态负载平衡、拥塞控制以及可靠打包交付Ullal表示
人工智能推送集合操作 即归并归并为主集体类型今日模型已经从数以十亿计转万亿参数GPT-4谷歌Gemini开源Llama计算交换周期内数据交换量如此之大以致网络差分减速会严重影响AI应用性能Arista EtherlinkAI表层学允许所有流同时访问通向目的地所有路径,并用多端速度动态负载平衡。”
Arista Etherlink支持从1000到100,000GPU节点,
Ullal表示,Arista以太链路平台另外两个密钥特征如下:
- 可预测延迟度 :快速可靠批量从源向目的地转移是AI全部工作完成的关键单包嵌套很重要,但人工智能工作量最依赖及时完成整个处理步骤换句话说,整个消息的延迟性至关重要弹性定序机制使用从NIC到开关的所有Etherlink路径保证端对端可预期通信
- 拥塞管理管理AI网络拥塞是一个常见的'播客'问题可发生于AI接收器最后链路上,多发件人同时发送通信量为了避免热点或流交高价GPU集群冲突,算法定义为多路移动、通知并均衡分布负载,提高GPU和VoQ布料使用率并联通总和,Ullal写道Arista虚拟输出Queing布局特征分布式调度机制,保证堵塞开关端流量交付
AristaAI联网还依赖销售商核心OS操作系统与自然语言GeneralAI自动化虚拟辅助系统并发Ullal写
AristaAVA通过AI专家系统仿真云级人类知识,起始点是实时地面实情数据 网络设备状态和原始包AVA将我们广博的网络知识与全套AI/ML技术相结合,包括受监控和不受监督ML和NLP语言处理AVA应用AI网络提高网络的忠诚性和安全性并实现自主网络检测响应实时可观察性
关于AristaEOS软件栈,Ullal表示它能帮助客户建立弹性AI集群OS提供改进负载平衡算法和散列机制,绘制从回端主机端到上端链路的流量,以便在链路失效时自动恢复流平衡,Ullel写道用户现在可以选择包头字段 以更好化高效负载平衡AI
AI网络可见度是培训阶段用于提高LMS精度的大数据集的另一个关键方面,Ullal表示EOS悬浮分析器监督缓冲使用,AistaAI解析器监控并报告二阶窗口流量计数器Ullal写道, 这有助于检测和处理难分秒捕捉的微爆
整体上,AI培训集群需要一种全新的网络建设方法,Ullal表示,单流交通拥塞可能导致波纹效应减缓全AI集群,因为工作量必须等待延迟传输完成AI集群设计大容量适应分布式GPU的交通模式, 并配有确定式延缓布局和无损深缓冲布局,