在当今数据驱动的世界中,高性能计算(HPC)正在成为企业的首选平台,帮助企业深入了解基因组学、计算化学、金融风险建模和地震成像等各个领域。最初,高性能计算受到需要进行复杂数学计算的研究科学家的欢迎,现在,越来越多的企业开始关注这一领域。
戴尔·布兰特利公司的系统工程主管戴尔·布兰特利说:“依赖于收集、分析和分发数据的环境——依赖于可靠的系统来支持具有巨大计算能力的简化工作流程——需要高性能计算。PanasasHPC数据存储系统提供商。
尽管中小企业的采用仍然相对稀少,但对于愿意在技术和人员专门知识方面进行投资的组织来说,这种技术具有很大的潜力。
通常,HPC用例关注于某种类型的模拟。“模拟机翼上的气流、发动机内的燃烧、行星天气系统、核反应或投资组合的估值,”高性能计算和量子计算技术总监凯文•基塞尔(Kevin Kissell)表示谷歌云。其他用例以分析目标为目标,例如度量广告ROI或评估业务单元的性能。还有一些用例可以归类为转化用例或转换用例。“就像电影和视频渲染一样,”他说。
没有超级计算机的高性能计算
许多企业和IT领导者都有一个误解,那就是所有的HPC系统都是基于超级计算机的。事实上,虽然超级计算机制造公司如阿托斯,IBM,HPE /克雷和富士通作为众多专业HPC系统的核心,一种更广泛使用的方法是将多个小型计算机集成到一个互连的集群中,以提供HPC功能。在这种安排下,集群中的每台计算机都充当一个节点。每个节点通常都配备有多个处理器,称为计算核心,用于处理计算任务。每个节点中的处理器、图形处理单元(GPU)和内存资源相互连接,以创建一个HPC系统。
由于购买和操作一台超级计算机及其定制软件的成本很容易就会达到数百万美元,这项技术仍然远远超出了大多数企业的财力范围。集群型的hpc使用相对便宜的、运行现成软件的互连计算机,部署和操作成本通常更低。尽管如此,对于大多数企业,特别是那些只有有限的HPC需求的企业来说,即使是一个中等规模的基于集群的HPC也可能是一项重要的投资。
这种情况现在正在改变。希望在不违反IT预算的情况下获得HPC访问的企业现在可以选择转向公共云服务,例如谷歌云,微软Azure,亚马逊网络服务(AWS)和IBM Cloud。
net技术主管Maksym Pavlov说:“这些服务使企业能够访问HPC功能来满足他们的业务需求,而不需要在HPC集群的硬件基础设施上进行大量投资。Ciklum这是一家数字服务和软件工程公司。IBM的exascale计算副总裁David Turek补充道:“云的出现在一定程度上为大公司和小公司提供了公平竞争的环境。”
从HPC集群迁移到云HPC
的北卡罗来纳大学教堂山分校(北卡罗来纳大学教堂山分校)长期以来一直依靠其本地高性能计算集群支持多个科学、工程和医学领域的研究活动。然而,随着研究计算需求的持续增长,用户需求开始超过当前系统的计算资源和容量。大学没有扩大其现有的高性能计算投资,而是决定转向云,为用户提供按需的高性能计算环境。
事实证明,这种方法既具有成本效益,又非常灵活。北卡罗来纳大学教堂山分校(uc - chapel Hill)的临时首席信息官迈克尔•巴克(Michael Barker)表示:“有了云计算,我们就可以提供完成工作所需的计算能力,并在工作需要的时候随时提供计算能力。”“这是一种非常有效的方式来交付运行计算工作的需求。”
北卡罗来纳大学教堂山分校的高级研究助理杰夫•罗奇表示,转向云计算既是必要的,也是受欢迎的。“我们有一个非常传统的现场集群,”他说。然而,随着时间的推移,越来越多的用户需要尖端的计算能力和更快的性能,而该系统却逐渐跟不上,这一点变得越来越明显。他表示:“我们发现,我们的on-premises集群对于它所针对的用户非常有效,但他们的一些边界情况正在变得不那么边界情况。”
随着需要计算的用例迅速成为规范,北卡罗来纳大学教堂山分校开始与谷歌云以及模拟和分析软件供应商合作Techila技术规划其向云高性能计算的旅程。规划后的第一步是概念评估的证明。罗奇说:“我们找了校园里的一名研究人员,他当时正在做大量的高内存、交互式计算,我们试图测试他的工作量。”他指出,结果是绝对的成功。“研究人员非常喜欢;他把工作做完了。”的same task could have taken up to a week to run on the university's on-premises cluster HPC. "He was able to get a lot of his run done in just a few hours," Roach says.
在大西洋的另一边,英国约克大学还决定采取基于云的高性能计算方法。英国皇家学会(Royal Society)工业研究员、约克大学(University of York)生物系教授詹姆斯·钟(James Chong)指出,在生物、物理、化学和计算机科学等科学院系,以及语言学和其他一些学科,师生都广泛使用高性能计算。
Chong的部门目前正在使用谷歌云分析DNA序列数据。他解释说:“具体来说,我的团队对微生物群落很感兴趣,这是一种混合微生物群落,参与将废物转化为沼气。在我们的研究中,是污水污泥。”“我们使用HPC将短的DNA序列重新组合成一个宏基因组,然后分离出不同微生物的基因组,这样我们就可以了解这些微生物是如何对生长条件的变化做出反应的。”
与北卡罗来纳大学教堂山分校的同行一样,Chong非常欣赏高性能计算云服务所能提供的强大功能和灵活性。他说:“我们的HPC需要能够满足一系列的需求——一些用户需要大量的处理器,而另一些用户则需要高内存机器。”“作为生物学家,我们使用的一些应用程序很快就会受到I/O的限制,所以超高速磁盘访问也很有用。”
大学使用的云HPC也有能力适应不断变化的需求。Chong指出:“我们许多人开始使用机器学习技术,希望能够利用不同的架构。”他补充称:“(这所大学的)用户范围很广,这意味着我们也需要访问一系列不同的软件包。”与大多数云hpc一样,York使用的服务允许各种类型的研究人员在软件工具之间轻松快速地切换,而不需要在获取、部署或配置问题上浪费时间。
HPC与一台超级计算机
虽然云HPC服务提供了一些优势,但对于关心安全和隐私的企业来说,它并不总是最佳或最合理的选择。塔瑞克说:“人们对数据的位置非常敏感。”“尤其是当你看到欧洲的国内生产总值(gdp)约束时。”(GDPR is the General Data Protection Regulation, the European Union’s privacy law.)
解决隐私和大规模计算能力的需求,迈阿密大学最近选择投资于一个新的,在场所,基于超级计算机的高性能计算系统。最关键的是,该大学相信,拥有大量多维数据集的研究项目可以在专门设计的高性能超级计算机上运行得更快。
去年8月,该校推出了基于Power Systems AC922服务器的新型IBM Triton超级计算机。迈阿密大学计算科学中心(University of Miami’s Center for Computational Science)主任、数据与研究计算副教务长尼古拉斯•奇诺马斯(Nicholas Tsinoremas)指出,2000多名学生和教师已经在使用该系统从事气候预测、基因组学、生物信息学、计算机视觉和人工智能等项目。
部署虽然成功,但遇到了一些最初的障碍,这几乎是任何HPC采用者都能预料到的,无论其规模、领域或计算需求如何。“移民问题一直是个问题,”Tsinoremas说。还必须处理用户培训和再培训的问题。“新系统与遗留存储系统的集成是另一个挑战,”他指出。
所有这些问题都突出了这样一个事实:无论HPC系统是基于本地还是在云中,采用HPC系统都需要大量的计划和准备工作。Tsinoremas警告称:“内部专家是必要的,机构必须有一个计划。”了解工作负载的性质和需求也很重要。“换句话说,(采用者)需要了解他们试图解决的问题,以及他们希望HPC如何帮助解决这些问题,”他表示。
开始了解HPC工作负载
另一个要点是选择正确的资源管理工具的重要性,它使组织能够访问和优化HPC环境。“无论您是购买传统的HPC硬件环境、利用云中的HPC,还是两者兼得,选择适合您的工作类型和吞吐量需求的正确的HPC工作负载管理器都是至关重要的,”at的高级产品管理总监Jeremie Bourdoncle说“牵牛星”该公司提供仿真软件和其他与高性能计算相关的工具和服务。工作负载管理器可以自动化作业调度,以及管理、监视和报告功能。
Kissell建议采用一种关注知识、简单、选择和谨慎的策略。他建议说:“这可能是一个漫长的旅程,所以要计划好你的旅程,但也要给自己调整路线的机会。”选择一个简单但有代表性的测试用例,在这个用例中可以清楚地识别从HPC模拟或分析中获得的知识和见解。“然后选择一个针对你的问题设计的软件包的简短列表,并尝试它们。”