去年秋天,西非爆发了有史以来最严重的埃博拉疫情。尽管医学研究人员正在努力寻找治疗或预防这种疾病的药物,但这个过程漫长而复杂。这是因为你不只是打响指,然后生产出带有埃博拉病毒的药物。我们所需要的是大量的试验和错误,以找到能够与病毒中的蛋白质结合并抑制复制的化合物。在实验室里,这可能需要几年甚至几十年的时间。
多亏了成千上万的陌生人,埃博拉研究人员获得了所需的帮助和计算能力,从而将寻找新药的时间缩短了几年。
分布式计算并不是一个新概念,但正如它今天的构成一样,它是一个诞生于互联网的想法。贡献者下载一个在后台运行的小应用程序,并使用空闲的PC计算周期来执行特定的过程。
当你运行一台PC,用它来进行Word、Outlook和浏览时,你使用的计算能力只有现代CPU的很小一部分,可能总共只有5%,这还只是突发情况。分布式计算程序使用另外的95%,如果您指定的话,或者更少,如果您需要更多的计算能力,计算客户端会回调他们的工作,让您获得所需的CPU能力。如果你在不使用电脑的时候让电脑开着,应用程序就会满负荷运行。
有各种各样的项目,其中一个旨在找到帮助遏制埃博拉病毒的药物。它是世界共同体网格(WCG),由IBM运营,使用加州大学伯克利分校(University of California at Berkeley)开发的软件。
据IBM公司的WCG建筑师兼首席科学家维克特斯·贝尔斯蒂斯(Viktors Berstis)博士说,WCG有近70万名成员,有300万台设备注册,要在这些项目上进行压缩。总的来说,WCG正在运行近30个药物项目。
WCG使用在伯克利大学开发的软件BOINC,或伯克利开放网络计算基础设施。过去的分布式项目,甚至当前的项目Folding@Home,使用自己的客户端完成工作。BOINC是一个由国家科学基金会资助的项目,旨在创建一个任何项目都可以使用的分布式计算客户端,从而使研究人员不必重新发明轮子,只专注于他们的项目而不是客户端。
该程序模拟了一种潜在化合物与目标化合物的反应,比如病毒中的一种蛋白质,这种蛋白质是疾病存活所必需的。通过分布式计算,WCG可以对任何给定的目标遍历数百万种化合物,并极大地减少了在实验室中进行研究所需的时间。
“它适用于任何需要大量CPU时间并且可以被分割成数百万个独立运行的作业的任务。世界社区网格和超级计算机之间的唯一区别是超级计算机处理器可以相互通信,”Berstis博士说。
埃博拉狩猎
在埃博拉疫情中,WCG与加利福尼亚州拉霍亚市的生物医学研究组织斯克里普斯研究所(Scripps Institute)合作推出了该项目一起战胜埃博拉病毒。斯克里普斯的项目负责人埃里卡·萨菲尔(Erica Saphire)博士表示,该项目将针对埃博拉家族中的多种出血性病毒。
该项目将以一种特定的蛋白质为目标,这种蛋白质用于将病毒附着在人体健康细胞上,然后进行复制。这种蛋白质之所以成为目标,是因为它不像病毒中的其他蛋白质,它不能变异。“他们的目标是病毒进入细胞的途径。因此,如果它以任何方式改变太多,它是不可行的。它是病毒中少数几个不能改变的地方之一。它必须保持不变。所以这是一个理想的药物靶点,”Saphire博士说。
Saphire博士说,斯克里普斯的FightAIDS@Home小组经常在几个月内完成10年才能完成的工作,他们希望将300万台WCG设备投入使用。她说:“有了如此强大的计算能力,我们不禁要问,我们能理解哪些我们以前从未理解过的东西。”“这是我的实验室做过的最重要的事情。它也是最大的。”
斯克里普斯是一个规模庞大、资金充足的机构,很容易就能买得起超级计算机,但萨菲尔说,WCG是一个更好的选择。她说:“事实证明,拥有成千上万台并行的计算机比拥有一台超级计算机更快。”
成功的故事
阿特·奥尔森博士是斯克里普斯大学计算与结构生物学综合系的教授FightAIDS@Home这个项目始于2005年,在此之前的2000年,它与一家名为联合设备的公司合作,这是第一个分布式生物医学计算项目。
奥尔森博士的团队发表的第一篇论文讨论了HIV蛋白酶的突变,HIV病毒中控制复制的部分,以及它们如何以蛋白酶为目标阻止复制,以及蛋白酶如何产生耐药性。奥尔森博士说:“这给了我们一组目标,让我们尝试寻找能够有效对抗这一系列突变体的药物。”
与萨菲尔博士一样,他更喜欢通过WCG提供的大量cpu,而不是内部的超级计算机。“我们这里有很好的计算资源,但我们不是使用斯克里普斯计算资源的唯一的人。我们在任何给定的时间只能得到300个cpu,而在世界社区网格中,我们可以在任何给定的时间得到数万个cpu来使用。所以这是一个巨大的进步。我们甚至永远不会仅仅利用我们当地的机构资源来做我们所做的停靠的范围。”他说。
除了斯克里普斯外,WCG还取得了其他成功。贝尔斯蒂斯说,成功的例子之一是对碳纳米管的模拟。水通过管道的效率比想象的要高一万倍,所以现在有实验寻找比使用非常昂贵的反渗透过滤器更便宜的过滤或淡化水的方法。
一个最近披露的来自WCG“帮助抗击儿童癌症”小组的项目发现了治疗儿童神经母细胞瘤的化合物,这是一种神经系统的癌症。他们与日本的一个研究小组合作,发现了7种候选药物,有95%的可能治愈癌症。
最后,有一个癌症项目用机器光学扫描观察活体组织的图像。最终开发出了一种算法,可以帮助分析这些图像,以确定是否存在癌细胞。贝尔斯蒂斯博士说:“他们现在和人类一样健康,所以这将有助于更快地发现是否存在癌症。”
DIY分布式计算
使用空闲CPU周期而不是在超级计算机上投资数百万的概念并没有在IT部门或处理大任务的公司中丢失。关于公司建立自己的内部分布式计算网络的轶事已经流传了好几年了,尽管大多数公司出于放弃竞争优势的考虑而不愿讨论它们。
开发早期癌症检测设备的CDx诊断公司愿意讨论其努力。它建立了一个计算机数据中心来进2020欧洲杯预赛行处理,加上它利用员工计算机上空闲的CPU周期,来建立它自己的内部网格计算环境来分析数字化的显微幻灯片数据,以检测细胞变化,这将表明癌变细胞和癌前细胞。
CDx需要一个便宜的系统,可以处理每张病理切片产生的590GB的图像数据,而且病人可以在不到四分钟内得到多张切片。在一台PC上,这种分析通常需要4个小时。而且它仍然不能代替人眼。幻灯片仍然由人类处理,但网格系统可以发现异常,或者注意到没有异常。
员工晚上回家时电脑都开着。客户端pc告诉服务器它们的计算能力,服务器决定哪些计算机获得何种类型的工作负载。负责工程和网格开发的副总裁Robert Tjon说,运行速度更快的计算机在完成下一个任务时会获得更高的优先级。
Tjon说,价格方面的最佳性能来自于商品硬件,只要有一个能够有效管理外部资源的集中式系统,那么它就是健壮的、高度可重构的和可伸缩的,因此计算机可以不断地获得数据。
他说:“百分之百地利用电脑资源将会降低整个电网的成本,包括空间、热量、电力和人力。我们也喜欢英特尔投资数十亿美元使电脑更便宜、更快,而我们只需要支付普通的、受欢迎的消费品的价格。”
因此,有一天,你的闲置电脑可能会拯救你的生命。
这篇文章“顶级分布式计算项目仍在努力解决世界上最严重的健康问题”最初由ITworld 。