克莱姆森IT团队拥抱来电话的企业家

五年前,克莱姆森大学名叫詹姆斯Bottum首席信息官,并给他的任务是改革学校的IT基础设施,打造出一个高性能的计算环境。其目标是:弹射把学校建设成为一个领先的研究型大学,并帮助吸引教师和学生。

“去年克莱姆森总统从国家告诉我们,我们的最好的年份公共部门的资金是因为金融危机的最有可能在我们身后,我们需要重新思考我们的商业模式,” Bottum说。“的鼓励是成为企业家。”

好在许多的变化Bottum的团队正常进行定位克莱姆森的新常态。这所大学已经看到了收入增长了180%,从外部来源,这有助于补充学校的IT预算,并在联邦拨款,其中一部分帮助抵消IT成本增加了250%。

“主要的目标是继续运行,并支持一组强大的服务和基础设施克莱姆森大学,” Bottum说,“但这样做的方式,我们可以成长,并充分利用我们在做什么,并创建一个更强大的集基础设施和服务,也有利于国家经济发展。”

Bottum有独特的资质来帮助完成所有的工作。他在研究部门工作了20多年,包括在国家科学基金会工作,然后在国家超级计算中心工作了15年应用程序和在过去的10年里,他一直是CIO(美国普渡此之前)。

詹姆斯Bottum

克莱姆森的Bottum团队最近取得了很多值得骄傲的成就,但他们也在研究前沿技术,从巨大的高性能计算网格到新的网格开流工具和学校自身的橙色文件系统。这是一个丰富的环境。

提前探班

当Bottum(右图)来到克莱姆森的学校有48个IT组,每组都有自己的服务器和存储以及其中许多跑自己的网络。

“我看到一个部门的IT人在一个房间里与球迷吹上服务器,“他说,”所有的高性能计算的是在一个小2020欧洲杯预赛在工程科学学院。他们有六七集群,但没有足够的果汁给力他们都在同一时间了。这是一个真正的腰带和背带样的操作,在衣柜模型集群“。

还有其他一些意外:哈佛大学从当地电信公司购买了100Mbps的大宗商品互联网服务,价格飞涨;学校在距校园10英里的地方有一个大型数据中心,其扩张潜力可达3万平方英尺。2020欧洲杯预赛前者意味着大学可以通过加入Internet2向前迈进一大步,而后者将使整合it操作和现代化变得更容易。

虽然检修的初始资金将来自于学校本身,新的高性能计算能力吸引了新的资金,一路上和克莱姆森赢得了许多资助,包括美国国家科学基金会研究基础设施进步奖。

更多关于网络研究:关注我们的Alpha Doggs博客

工作一是修复数据中心和信息技术中心,并将大部分IT组2020欧洲杯预赛和资源聚集起来。该建筑有20多年的历史,分两个阶段进行了升级。

“我们有七八千平方英尺的空间,半兆瓦,而当我来到这里20出头岁的电源和空调,” CTO吉姆·佩潘,谁从南加州大学走了过来(USC)说:。“我们走到2兆瓦,填补了在不到两年我们巩固业务和开始建立我们的HPC集群。”

HPC集群前从左到右:Jay Harris,运营总监;博伊德·威尔逊,计算机、系统和操作执行董事;Mike Cannon(前端),数据存储架构师;Jim Pepin (back), CTO;Lanae Neild, HPC管理员;Becky Ligon,文件系统开发人员。(由扎克·威尔逊照片)

HPC集群前从左到右:Jay Harris,运营总监;博伊德·威尔逊,计算机、系统和操作执行董事;Mike Cannon(前端),数据存储架构师;Jim Pepin (back), CTO;Lanae Neild, HPC管理员;Becky Ligon,文件系统开发人员。(由扎克·威尔逊照片)

第一阶段于2007年12月结束,而在第二阶段,并于2010年12月完成,数据中心空间建了16000平方英尺,两个环境之间的分裂,一个企业的齿轮 - 从电子邮件和学生系统所需的一切2020欧洲杯预赛到大型机来支持国家的医疗系统 - 和其他的HPC系统,1629个节点Linux簇。“所以,现在我们有不同的空调型材和4.5兆瓦的两个物理上独立的房间,”佩平说。

连接从服务于大学到多个10G纤维波长夏洛特,北卡罗来纳州,和亚特兰大,其用于访问Internet2的并链接到的合作伙伴和其他大学100Mbps的连接增加。“我们还建设了各地州多个10G波长,”佩平说。这些链接在一起 - 并获得了国家LambdaRail公司 - 使克莱姆森连接到国家基础设施,允许其他国家机构,以获得通过Internet2的克莱姆森,并提供给克莱姆森HPC集群和其它协作资源,全国性的访问。

这所学校现在还在国家高等教育网络上与Pepin的前雇主USC建立了两个千兆的连接,在USC, Clemson有三个架子的灾难恢复备份设备。“没有资金转手,但我在加州有机架空间,他们在这里有机架空间,这使他们的数据中心看起来像我的扩展,反之亦然,”Pepin说。2020欧洲杯预赛“这就是我们正在考虑建立的模型,网络是我们如何将这些东西连接在一起的基本构件。”

对于HPC需求

集群 - 什么组有时是指作为一个云 - 是皇冠上的宝石之一。

“我们没有建立一些通用Joni Mitchell的云Pepin说。“而不是一些vanila,虚拟的,等等,等等。里面有所有的东西,但是更全面,更丰富的质地。我们正在构建云计算,它实际上是一种基础设施和服务,因此我们可以与国家实验室和该州的其他人一起进行科学研究。”

这个庞大的1629个节点的集群是戴尔、IBM、惠普和Sun gear的组合(大部分是四种英特尔/AMD架构)。每个节点是一个物理服务器,有两个套接字持有四核处理器,这意味着每个设备有8个核,服务器核总数为14,304个。

节点互连使用88个10G以太网端口从Arista和思科,并从Myricom公司低延迟10G的Myrinet网络技术的3008个端口。4个16端口,4Gbps的QLogic光纤通道开关用于支持存储需求。

该服务器没有因虚拟化支持的工作通常是数字密集型和非常高的性能。“所以,这更是一个比格云的,”佩平说。“我们称之为云,因为它是共享资源的模式,但我们运行它像一个网格,将在国家实验室的一见。”

总而言之,集群,其最新的节点,将基准以每秒超过100万亿次浮点指令,使其成为第90个左右的就行了世界上最快的超级计算机

开源Maui集群调度器用于分配集群资源——由所需的核心分配——但在共管方式中,一些用户可以保证在特定时间访问特定资源。

集群使用率一直在巨大的,但Bottum有一些惶恐中去。“一位的事情,我怕的是,如果我们花这个钱,放了这些能力,没有人会来使用它,” Bottum说。

原来他没有必要担心。“在象南卡罗来纳的状态下,没有公共机构是第二代互联网,如果你建立这样的事情,你开始引起人们的注意,” Bottum说。“有一件事我没有,你可以诠释营销是在查尔斯顿南卡罗来纳州的IT董事会议上发言。他们想知道我们在做什么,所以我扔掉了建设南卡罗来纳州的云,环境的想法共享服务,并告诉他们,如果他们有兴趣在门口进行注册。”

一个半十几签订了协议。“然后,我们去了,我们得到了来自各种来源,包括民间和政府,并试图站在这个HPC事情了我们所说的网络研究所的标题下一些资金。这使我们能够有一个中性点接地带入研究员和其他政党,而不是运行此出IT组织的。我们自举出来IT的,但它给了我们一个方法来思考它,而不是刚刚突破的人谁拥有超过全职工作做的背影。我们现在有十几所大学 - 甚至高中 - 那些对高性能计算的分配“。

从那时起,克莱姆森大学举行的高性能计算围绕国家研讨会,其中许多吸引70人以上。“有这种被压抑的需求,” Bottum说。

今天,集群利用率在80%-85%运行,90%以上的经常峰值。“在集群的世界,这是不可思议的,” Bottum说。

克莱姆森NOC:用于监视和控制局域网和广域网和研究,教育和商业计算系统,包括集群。(由扎克·威尔逊照片)

克莱姆森NOC:用于监视和控制局域网和广域网和研究,教育和商业计算系统,包括集群。(由扎克·威尔逊照片)

OrangeFS和OpenFlow的

当然集群也是核心,很多工作的大学是干什么的,包括并行虚拟文件系统和工作对OpenFlow的发展,级别最高的项目之一走出全球环境网络创新(GENI)。

在为Clemson的集群尝试了几个流行的文件系统之后,研究人员决定他们需要更高的性能和更高的可靠性,计算、系统和操作执行董事Boyd Wilson说。其结果是:由最初的架构师、Clemson学院成员Walt Ligon重新启动了开放源码并行虚拟文件系统(PVFS)的开发工作。Ligon正在与克莱姆森的一家名为Omnibond的公司合作,该公司为该文件系统提供商业服务。

Wilson说,在Clemson集群中,OrangeFS被用于虚拟化32台戴尔的商用存储服务器,同时为集群节点提供单个名称空间。目录和文件元数据分布在32个存储节点上的1.6TB固态驱动器上,总共有256TB的原始旋转磁盘存储。

不像其他的高性能文件系统,如光泽,它只能有一个元数据服务器,OrangeFS”分布式元数据的方法和统一的命名空间启用文件系统很好地扩展,同时也简化了操作,威尔逊说。

这些功能最终可能有利于企业计算环境。Wilson说:“通过可能跨越数百个存储节点的统一名称空间,您可以根据需要添加和删除节点,而客户不会注意到他们的文件移动了,也不会需要将其指向新的存储位置。”“你的非结构化数据存储可以增长、调整大小和冗余,你不会有所有这些不同的小竖井数据。因此,它在未来几年有可能成为企业计算解决方案。”

一个克莱姆森研究员塞巴斯蒂安Goasguen,使用OrangeFS开发基于云的基础设施,可以同时与成千上万的基于集群的虚拟机的启动和工作。“它使您能够拥有所有群集节点之间共享的高性能文件系统利用OrangeFS,”威尔逊说。

Goasguen使用OpenFlow的,与KC(旷清)王合作,虚拟机和客户机之间建立软件定义网络“代表与大学对OpenFlow的工作一个很好的收敛点,”他说。

克莱姆森是初始的OpenFlow部署7名合作者与斯坦福之一。什么开始了通过添加一个开放的,集中的,软件定义网络的路由层,以方便网络的研究工具,OpenFlow的承诺,“改变我们对网络的整体方式,”威尔逊说。“很多人都意识到,他们希望通过他们的网络基础设施的基于软件的控制。......你可以做一些很奇妙的东西。”

例如,虽然它不是太痛苦了克莱姆森将IP地址从主数据中心在校园里长的距离,并与多个位置转移到一个更小的中心,因为它们共享子网,当你开始这样做,它变得非常困难,2020欧洲杯预赛威尔逊说。OpenFlow的应允许创建和基础设施级的变化动态网络大大简化了任务,而且在应用层面,网络灵活性提高对外开放显著的机遇和安全

虽然目前还不清楚何时以及是否克莱姆森将能够从OpenFlow的工作利润,它已经从OrangeFS以及通过Omnibond系统许可的其他软件中获利,威尔逊说。例如,感兴趣的OrangeFS公司可以从Omnibond购买10服务包与$ 45,000名支持。

Omnibond授权的克莱姆森公司的其他产品包括身份管理工具(包括Novell的身份管理器的司机),甚至还有交通视觉技术,州交通部门可以使用该技术将路边的视频信号转换成传感器。

威尔森说,虽然授权费有助于抵消克莱姆森的成本,但这项工作也有助于吸引和留住真正优秀的人才。

企业IT

与高性能计算集群同样重要的是,如果它下降,“研究人员明白生活就是这样的,”CTO Pepin说。“如果企业方面出现问题,我们就会被解雇。它只占电脑电量的一小部分,却占到疼痛的90%,所以我们非常关心它。”

12 第1页
页面1的2
IT薪资调查:结果是