美洲

  • 2020欧洲杯夺冠热门
安尼尔班Ghoshal
高级写作器

Google云增加基础设施支持AI工作量

新闻发布
2024年4月10日 4分
云管理 云存储 生成AI

基础设施增强面向AI工作量包括硬件计算更新、NvidiaGPU新提供量和存储优化

data-center-woman-mainframe-african-american-black
信用百货公司

Google在其一年一度云下大会上展示了一系列云基础设施更新,越能支持AI工作量和帮助企业优化云支出

更新内容包括快速处理器、大虚拟机、更多存储器和新管理工具

谷歌最新迭代自有加速器模块AI工作量,Tensor处理单元v5p

单TPUv5pot内存8 960芯片并存, 比TPUv4芯片多一倍以上,

TPU平台现在有支持GoogleKubernetes引擎并多主机服务GKE:TTPU多主机服务GKE允许客户管理多主机部署成单逻辑单元的一组模型服务器,

TPU并非唯一新硬件添加Google与Nvidia扩大合伙关系后, 向云引入A3M虚拟机, Nvidia H100GPUs提供电源

2023年5月谷歌首次启动3系列超级计算机VM云中快速训练大型AI模型

新的A3MGPU网络带宽二倍GPU对GPU机密计算3VM组能力预览特征旨在保护AI工作量中数据使用隐私和完整性

存储优化AI和ML工作量

提高AI培训性能、微调和推理Google云增强存储产品,包括缓存,使数据更接近计算实例并加速培训周期

公司表示,增强的目的是最大限度地提高GPU和TPU使用率,提高能效和成本优化

公司表示,这些增强包括并行存储文件服务管理高性能。虽然该增强仍在预览中,但可提供3.9倍快速培训时间和3.7倍高培训吞吐量比本地ML框架数据加载器

另一项增强工作是引入超磁盘ML预览,这是一个块存储服务优化应用AI推理工作量

公司表示:「它加速模型加载时间达12X比常用替代方法,

2500实例访问同量并交付1.2tib/s总吞量/卷量,Google表示,该性能比微软AzureUltraSSD或亚马逊EBS2blockExpress高100倍以上

存储方面的其他变化包括云存储FUSE通用化界面Google云存储面向复杂AI和ML应用的文件界面和FileToore

Filestore网络文件系统化方法允许集群内所有GPU和TPU同时访问同一数据,

新建资源管理和作业调度服务

帮助企业优化成本 Google云还添加资源管理和工作调度服务 AI工作量命名动态工作调度器

提高AI计算容量,帮助企业优化AI工作量支出,同时调度所有加速器并保使用期,公司表示

动态工作负载调度器提供两种模式-弹性启动模式以优化经济学增强获取性,日历模式以可预测工作启动时间和持续时间

弹性启动模式用于排队AI任务,这些任务需要根据资源可用性尽快运行,日历模式提供短期保留访问AI优化计算容量

两种模式目前都预览中