峰会:如何IBM和橡树岭实验室正在改变超级计算机

该团队设计橡树岭国家实验室的新高峰的超级计算机 - 集成为这个星球上最快的 - 正确的预测数据为中心的计算的兴起,但它的建设者们无法预测的恶劣天气将如何破坏关键部件的交付。

橡树岭国家实验室

该团队设计橡树岭国家实验室的新高峰的超级计算机正确预测数据为中心的计算的崛起 - 但它的建设者们无法预测的恶劣天气将如何破坏关键部件的交付。

然而,在IBM赢得建造该系统的合同近四年后,Summit已经启动并按计划运行。橡树岭领导计算设施(OLCF)的科学主管Jack Wells预计,这台200-petaflop的计算机将在明年年初全面运行。

“这是世界上最强大和最大的科学超级计算机,”他说。

Summit是为核物理学、地震学和气候科学等工作设计的,这些工作通常从一个模型和一组初始条件开始,生成大量的数据,然后再去解决问题。

但它的创建者也计划解决新的计算问题,这些问题始于庞大的数据集,并寻求简洁的解释。基因组学研究是一个例子,机器学习问题是另一个例子。

“我们认为有可能是一个很大的增长在我们的用户在程序数据密集型应用,...而且的确是发生了,”威尔斯说。

他举例说,现在有10个左右的深度学习项目希望在峰会上获得时间,而几年前还没有这样的项目。

Summit的架构 - 它的存储器的处理器和其在降低的精度来执行计算的更大体积的能力之间共享的方式 - 特别适合于这样的问题。(Summit运行红帽Linux作为它的操作系统。)

这是一个在其他方面不寻常的超级计算机了。

如果业绩基准相匹配的预测,这将导致世界上最快的超级计算机Top500排行榜中以200个千万亿次,或每2亿十亿次浮点运算的峰值性能。

但是,另一项措施,峰会可以超过1.88 exaflops,或每秒1.88十亿十亿操作执行。取而代之的是64位,双精度,科学建模常用的浮点运算,这些计算是使用16位或半精度执行浮点运算,威尔斯说。这足以让许多深学习或基因组学所使用的计算。

Summit的计算节点比它注定要取代的“泰坦”(Titan)要少得多。“泰坦”在2012年11月曾是世界上最快的计算机。泰坦的18,688个节点均由AMD Opteron CPU和一个Nvidia Kepler GPU支持,而Summit的4,600个节点均由两个IBM Power9 CPU和六个Nvidia Tesla V100 GPU支持。这些芯片可以有效地处理不同精确度的计算。

峰会的超级计算机3 橡树岭国家实验室

由IBM为美国能源部橡树岭国家实验室建造的Summit超级计算机的每个节点都有两个IBM Power9 cpu和六个Nvidia Tesla V100 gpu。

其节点填充有存储器:512 GB的DDR4 RAM为Power9s,96 GB高带宽存储器(HBM2)为V100s的,和1.6 TB用作脉冲串缓冲器。此外,从程序员的角度,该内存的CPU和GPU之间共享,且可被视为一个单独的块,进一步超速操作。

节点分为三类:用于编译代码和提交作业的登录节点、用于运行批处理的启动节点和完成艰难计算工作的计算节点。但是,这些节点在物理上都是相同的,因此不需要为不同的目标交叉编译作业。

连接节点的是一个双轨EDR InfiniBand网络,节点注入带宽为23 GB/s。交换机以三层无阻塞的胖树拓扑布局,这意味着无论其他节点在做什么,任何两个节点都应该能够以全带宽进行通信。

大约在同一时间,美国能源部委托IBM在橡树岭建造Summit,还要求IBM在劳伦斯利弗莫尔国家实验室建造另一台超级计算机,Sierra。

他们在一个重要的方面有所不同:劳伦斯利弗莫尔在其数据中心使用传统的升高地板设计,在橡树岭的设施,如水和电力到达头顶。2020欧洲杯预赛

IBM系统公司负责设计和工程的副总裁Wayne Howell说:“我们必须重新定位系统和橱柜本身,以便能够适应橡树岭。”

这也意味着所有的基础设施——机架、冷却设备、网络——必须在第一个节点交付之前安装好。

豪厄尔说:“如果我们试图在修建基础设施的同时,又试图把这些东西装进去,那将是一场协调混乱。”

也就是说,虽然,这意味着该节点必须以稳定的速度在相对短的时间进行安装。

“面临的挑战之一,我们经历的是,一旦你得到这个火车与所有这些交付的滚动进来,你不希望打扰。”

中断等,也就是说,一个拖拉机拖车故障或恶劣天气。(节点是北美冬季成立,2017年第四季度和2018年的第一季度之间)

当一辆汽车发生故障,导致IBM位于加州的工厂和位于田纳西州的实验室之间的某个地方的服务器大量滞留时,该团队就派出另一辆拖拉机返回,而不是等下一辆拖拉机赶上来。豪厄尔说,最终结果是几千公里长的旅程只延迟了几个小时。

当恶劣天气停止了卡车干脆,IBM包机来代替。

“因为我们在美国各地运送它们为了节省时间,我们是用飞机把它们飞越过去,而不是开车送过去。但是其中一些部件非常大,所以我们必须租大容量的飞机才能做到这一点。”

这些服务器带来了其他问题太:“想想都随他们的包装,我们很快就压倒橡树岭的能力来处理它,”他说。相反,采取的是到当地的废物处理设施,IBM在已经交付的服务器空卡车的一个又运不出来。

Wells说,最后一套设备于2018年3月交付。

“我们一直在晃倒的系统软件,”威尔斯说。该计划是在今年夏天晚些时候完成验收测试,然后,他说,“我们将在2019年一月在全用户操作”

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对那些顶级心态的话题发表评论。

版权©2018足球竞彩网下载

工资调查:结果在