超越失败:共同发展的计算机基准测试世界

计算机设计者和基准测试是相互依赖的。

思想库

过去很简单:把微处理器的时钟速率乘以4,你就可以用兆次浮点运算(每秒数百万次浮点运算)或兆次浮点运算(每秒数十亿次浮点运算)来衡量计算机的计算能力。

没有更多的。今天他们谈论的是万亿次浮点运算和千万亿次浮点运算——这就引出了一个重要的问题:如何对这些更强大的系统进行基准测试?

AMD产品营销总监加布•格雷夫宁(Gabe Gravning)表示:“大多数现代处理器都是芯片上的系统,这完全混淆了问题。”他解释说,x86微处理器实际上可能包括多个处理器核、多个图形协同处理器、一个视频编码器和解码器、一个音频协同处理器和一个基于arm的安全协同处理器。

英特尔平台工程部门副总裁兼服务器开发部门主管Rory McInerney表示:“很长一段时间以来,我们都在制造单核处理器,并尽可能地提高频率,因为频率与性能的关系最为明显。”“然后出现了双核、多核,然后突然出现了18核,功耗成为了更大的问题,基准测试必须跟上。”

但同时,基准是系统设计过程中不可或缺的一部分,McInerney解释道。他表示,当考虑使用新的芯片时,买家将“提供应用程序的片段,这些应用程序在他们的环境中具有最佳的模型性能——他们可能需要优化某个交易或算法。”

麦金纳尼说:“在此基础上,我们需要一种预测性的方法来说明,如果我们采取选项a, B将提高X个百分点。”“为此,我们制定了30到50个合成或内部基准。这些基准测试倾向于在产品的生命周期中使用相同的CPU。然后我们看看内部的基准如何与我们可以引用的标准(第三方)基准相关联。”

Gravning补充说,“没有完美的基准可以衡量一切,所以我们依赖一套基准,”包括内部和第三方基准;这部分流程多年来没有真正改变。

至于这些基准的性质,麦金纳尼指出:“内部基准是专有的,我们不会让它们泄露出去。”但就营销而言,我们还需要可以被第三方复制的产品。如果你在外部基准上看起来很糟糕,那么世界上所有的内部基准都不会让你看起来很好。第三方基准测试对行业至关重要,对我们也至关重要。”

作为桌面和消费设备的第三方基准,有资料经常提到PCMark和3DMark基准Futuremark集团。在芬兰。第一个用于评估基于Windows的桌面,第二个用于测试游戏在Windows、Android、iOS和Windows RT设备上的性能。

但对于服务器和高性能机,三个名字不断上来:TPC,SPEC和Linpack测试。

TPC

成立于1988年交易处理及服务管理局(TPC)是一个非盈利的IT供应商组织。它促进了模拟企业系统性能的基准测试,特别是股票经纪(TPC-E基准测试)或大型仓库(TPC-C)。最新的TPC基准测试测量大数据系统)。分数反映特定于该基准测试的结果,例如TPC-E基准测试中的“trade-result transactions per second”,而不是机器速度。

TPC的发言人Michael Majdalany解释说,TPC基准测试通常需要大量的硬件,需要人力进行监控,设置成本昂贵,可能需要数周时间才能运行。此外,独立审计人员必须证明审计结果。因此,这些基准测试通常由系统制造商进行,他补充道。

TPC的总主席Wayne Smith补充说,在结果公布后,任何其他TPC成员都可以在60天内对结果提出质疑,技术咨询委员会将对此作出回应。他补充称,多数争议都与定价有关,因为基准测试通常是在系统及其价格公开之前在机器上运行的。2009年的TPC确实引起了一些媒体的关注谴责和罚款甲骨文竞争对手IBM抱怨广告基准测试结果不是基于审计测试。

仍然在使用的最古老的TPC基准是用于仓库模拟的TPC- c,可以追溯到2000年。在350多个公布的结果中,得分从每分钟9,112个事务(2001年使用基于单核奔腾的服务器)到超过3,000万个事务(2010年使用具有1,728个核的Oracle SPARC T3服务器)不等。TPC文学他说,这种差异反映了“计算能力的巨大提升”。

TPC还维护了一个过时基准测试的列表,以供参考。史密斯回忆说,有些产品几乎在一夜之间就过时了。例如,他回忆说,在各种数据库语言开始采用名为“物化视图”的函数从常用的查询创建数据对象之后,TPC-D决策支持基准测试的查询时间从几小时缩短到了几秒。

Smith说TPC已经决定放弃需要实时审计人员的大规模基准测试,转向基于运行代码结果的“快速基准测试”,供应商可以简单地下载这些代码,特别是对于大数据和虚拟化应用程序。

“但就让每个人都同意而言,编写和批准基准的过程仍然很漫长,”Smith补充道。

规范

同样成立于1988年标准绩效评估公司(SPEC)是一个非营利的公司,它促进标准化的基准测试并发布结果,销售测试所需的任何源代码。目前,SPEC提供了cpu、图形系统、Java环境、邮件服务器、网络文件服务器、Web服务器、功耗、虚拟化环境和高性能计算的各个方面的性能基准。

它最老的、也是最著名的基准是规范CPU2006,正如它的名字所暗示的那样,它是在2006年发布的,用于测量cpu。(SPEC的“退役”版本可以追溯到1992年。)

该SPEC CPU2006实际上是一个应用程序套件,在这两个速度(单任务的完成)和吞吐量方面的测试整数和浮点性能(完成多个任务所需要的时间,也称为“速度”的基准)。将得到的分数相比,参考机器的时间到完成所测试的机器的比率。在这种情况下,参考是一个1997年的Sun Ultra企业2具有296MHz的UltraSPARC II处理器。它最初采取了参考机12天就完成了整个基准,按照SPEC文献。

在撰写本文时,CPU2006的最高分数(在已发布的5000多个中)是31,400,这是在2014年3月测试的一台1,024核的富士通SPARC M10-4S机器上的整数吞吐量。换句话说,它的速度是参考机器的31,400倍。在另一个极端,2007年12月进行的测试中,联想(Lenovo)单核Thinkpad T43获得了11.4分。

规范交流总监Bob Cramblitt解释说,测试结果会提交给SPEC,并在发布前由该组织进行审查。“结果非常详细,所以我们可以看到是否有任何异常。偶尔结果会被拒绝,主要是因为没有正确填写表格。

SPEC的主管Steve Realmuto说:“任何人都可以提出一个基准。”“我们的产品是有信誉的,因为它们是由相互竞争的供应商组成的财团生产的,而且所有的利益都得到了代表。这是完全公开的,结果必须提交足够的细节,以重复,在发表之前,他们必须由我们审查。”

他指出,主要的趋势是衡量指标趋于多样化。SPEC从2008年起就开始测量功耗与性能,最近又推出了一个服务器效率评估工具,现在正在研究云服务的基准。

“我们没有看到很多针对桌面的基准,”Realmuto补充道。传统的桌面工作负载是单线程的,而我们关注的是服务器空间。我们面临的挑战是创建利用多核的基准测试,而我们已经成功了。”

Linpack

失败仍然是衡量的主要指标Linpack基准测试的基础排行自1993年以来,每六个月发布一次。该名单由三位计算机科学家管理:田纳西大学创新计算实验室主任杰克·唐加拉;劳伦斯·伯克利国家实验室未来技术小组负责人埃里希·斯特罗迈尔;以及劳伦斯伯克利国家实验室的副主任霍斯特·西蒙。

2014年6月,位于中国广州国家超级计算机中心的天河2号(milkyway2)登上了最新榜单的榜首。这是一台基于Intel Xeon集群的Linux机器,它使用了3,120,000核来实现33,862,700千兆次浮点运算(33,862.7 teraFLOPS,或几乎34 petaFLOPS)。

1993年6月,洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)的一台1024核的机器名列第一,它实现了每秒59.7万亿次浮点运算,因此,该名单反映了21年来接近6个数量级的改进。

Linpack最初是Fortran子程序库,用于解决各种线性方程组。基准测试起源于1979年Linpack用户指南的附录中,是估计执行时间的一种方法。现在可以用Fortran、C和Java下载它,它乘以密集线性方程组的解决方案(故意使用低效的方法来最大化所使用的操作数量),特别是矩阵乘法。

研究结果会被提交给唐加拉,然后他会在发布之前对这些说法进行审查。他解释说Linpack基准已经随着时间的推移而发展;这个列表现在依赖于一个高性能的并行处理器版本,叫做the高性能计算Linpack基准测试(HPL)基准。

但唐加拉也指出,500强榜单正计划超越HPL,转向基于HPL的新基准共轭梯度一种求解某些线性方程的迭代方法。为了进一步解释,他引用了a桑迪亚报告这篇文章讨论了当今高性能计算机如何强调数据访问而不是计算。

因此,依赖旧的基准测试“实际上会导致设计上的改变,这与实际的应用组合是错误的,或者增加不必要的组件或系统的复杂性,”唐加拉说。新的基准将被称为HPCG,表示高性能共轭梯度。

他表示:“这将为Top500提供一个可供比较的替代基准,从而增加该榜单的规模。”他说:“我们不打算消除HPL。我们预计HPCG将需要几年的时间来成熟并成为一个广泛可见的度量标准。”

IBM的请求

与此同时,IBM的研究人员正在提出一种新的方法来研究计算机整体结构。

位于苏黎世的IBM研究基金会认知计算小组负责人、2013年美国计算机学会戈登·贝尔奖得主科斯塔斯·贝卡同意唐加拉的观点,认为当今的高性能计算机已经从以计算为中心转向以数据为中心。“这改变了一切,”他说。

“我们需要的是设计机器,他们会解决问题,但如果我们继续使用的基准,专注于一个类型的应用程序会有缺陷,”他警告说。

Bekas说,因此他的团队提倡使用共轭梯度基准测试,因为共轭梯度涉及在大型矩阵中移动数据,而不是执行密集的计算。

除此之外,Bekas表示,他的团队还在推动一种新的计算设计,将不精确计算和精确计算结合起来——新的共轭梯度基准在这方面已经显示出巨大的优势。

基本上,双精度计算(即FLOPS)只需要在案件极少数,他解释说。的其余时间在计算机正在执行粗分选或简单的比较,和精确的计算是不相关的。

他说,IBM的原型机“显示出结果可以真正改变游戏规则”,因为通过精确计算和不精确计算的结合来达到解决方案所需要的能量减少了近300倍。他解释说,由于完全精度的最低使用,处理器需要更少的能量,整体解决方案达到更快,进一步减少能源消耗。

利用新的体系结构需要应用程序程序员采取行动。Bekas补充说,一旦系统软件模块意识到新的计算方法,“这只需要一条指令就可以完成。

Smith说,如果Bekas的建议流行起来,通过基准推动机器设计和机器设计推动基准,它实际上将是古老的计算和基准模式的延续。

“我不能给你一个公式说‘这就是做基准的方法’,”史密斯说。“但它必须足够复杂,以展示整个机器,它必须在技术方面有趣,而且必须有可以用于营销的东西。”When several firms use it for predictions "it feeds on itself, as you build new hardware or software based on the benchmark.

他解释道:“结果公布后,竞争市场就会上升一个档次,其他供应商必须做出回应,这样循环就会继续下去。”

这个故事,“超越FLOPS:计算机的共同发展的世界标杆”最初发表《计算机世界》

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对最重要的话题发表评论。

版权©2014足球竞彩网下载

工资调查:结果在