基础设施增强面向AI工作量包括硬件计算更新、NvidiaGPU新提供量和存储优化
Google在其一年一度云下大会上展示了一系列云基础设施更新,越能支持AI工作量和帮助企业优化云支出
更新内容包括快速处理器、大虚拟机、更多存储器和新管理工具
谷歌最新迭代自有加速器模块AI工作量,Tensor处理单元v5p
单TPUv5pot内存8 960芯片并存, 比TPUv4芯片多一倍以上,
TPU平台现在有支持GoogleKubernetes引擎并多主机服务GKE:TTPU多主机服务GKE允许客户管理多主机部署成单逻辑单元的一组模型服务器,
TPU并非唯一新硬件添加Google与Nvidia扩大合伙关系后, 向云引入A3M虚拟机, Nvidia H100GPUs提供电源
2023年5月谷歌首次启动3系列超级计算机VM云中快速训练大型AI模型
新的A3MGPU网络带宽二倍GPU对GPU机密计算3VM组能力预览特征旨在保护AI工作量中数据使用隐私和完整性
存储优化AI和ML工作量
提高AI培训性能、微调和推理Google云增强存储产品,包括缓存,使数据更接近计算实例并加速培训周期
公司表示,增强的目的是最大限度地提高GPU和TPU使用率,提高能效和成本优化
公司表示,这些增强包括并行存储文件服务管理高性能。虽然该增强仍在预览中,但可提供3.9倍快速培训时间和3.7倍高培训吞吐量比本地ML框架数据加载器
另一项增强工作是引入超磁盘ML预览,这是一个块存储服务优化应用AI推理工作量
公司表示:「它加速模型加载时间达12X比常用替代方法,
2500实例访问同量并交付1.2tib/s总吞量/卷量,Google表示,该性能比微软AzureUltraSSD或亚马逊EBS2blockExpress高100倍以上
存储方面的其他变化包括云存储FUSE通用化界面Google云存储面向复杂AI和ML应用的文件界面和FileToore
Filestore网络文件系统化方法允许集群内所有GPU和TPU同时访问同一数据,
新建资源管理和作业调度服务
帮助企业优化成本 Google云还添加资源管理和工作调度服务 AI工作量命名动态工作调度器
提高AI计算容量,帮助企业优化AI工作量支出,同时调度所有加速器并保使用期,公司表示
动态工作负载调度器提供两种模式-弹性启动模式以优化经济学增强获取性,日历模式以可预测工作启动时间和持续时间
弹性启动模式用于排队AI任务,这些任务需要根据资源可用性尽快运行,日历模式提供短期保留访问AI优化计算容量
两种模式目前都预览中