准备好迎接大量新的Hadoop应用吧

Hadoop 2.0版包含了Yarn,这是一个工作负载管理器,可以让在开源大数据平台上构建和运行应用变得更容易

最新版本的Apache Hadoop代码中包括一个新的工作量管理工具,项目支持者表示,该工具将使开发人员更容易为大数据平台构建应用程序。

对于雅虎和谷歌这样的世界领先技术公司来说,Hadoop已经证明了它是管理大量数据的强大方式。到目前为止,Hadoop系统都依赖MapReduce来处理数据,但最新的开放源代码中包含了Yarn,它是一个在Hadoop中运行其他应用程序的平台,与MapReduce一起运行。Yarn监控应用程序所需的资源,然后在分布式计算系统内提供容量。

Hadoop爱好者表示,这是一个重要的特性,可以让更多的应用程序在大数据开放系统中运行,并可能导致新的Hadoop分析应用程序浪潮。跟踪Hadoop的Gartner信息管理分析师Merv Adrian说:“Yarn是Hadoop拥有更好的资源管理和支持混合工作负载和使用的关键路径。”“它弥补了一些重大差距,并将在未来几年实现一些令人兴奋的发展。”

[更多的开源:栈大战:OpenStack、CloudStack和Eucalyptus

2.0版本增加了许多组件,包括高可用性架构,并增加了单个集群的规模,允许它们增长到4000台机器(一个Hadoop部署可以包含多个集群)。最大的变化是Yarn的加入,它已经计划了四年,正在开发中,被一些人称为下一代MapReduce架构。

Yarn将两个主要的功能通过MapReduce合并成一个;它分离了作业调度/监控和资源管理。它通过监控应用程序需要哪些资源来工作,然后创建CPU和RAM节点的容器来服务于这些应用程序。Hadoop分销公司的联合创始人阿伦•穆尔蒂表示:“纱线从根本上来说很简单,但它的可扩展性非常强。Hortonworks他一直负责在Apache开源社区中开发Yarn。博主读写网(ReadWrite)的布莱恩·普罗菲特(Brian Proffitt)指出Yarn消除了在Hadoop上运行应用程序的“一次一个”的限制,并允许Hadoop系统现在一次运行多个应用程序。

好处是多方面的。首先,Hadoop在功能上增加了同时运行多个应用程序的功能。其次,开发人员现在可以按照Yarn规范编写应用程序,并确保它们可以在Hadoop系统中工作。MapReduce现在也可以专注于其核心功能,而不是为附加应用管理资源。

Hadoop的支持者们希望Yarn的出现能够为在Hadoop上运行的新应用打开闸门。已经有一些项目,如Apache Tez,被创建来做更高级的数据处理,与MapReduce的专长相比。例如,Tez使用实时分析和内存处理来实现更快的查询。预计流媒体分析还会有更多的应用。Twitter Storm就是其中之一,而其他ETL(提取、转换和加载)应用也可以集成。

从技术上讲,工程师可以在设计系统时,允许在MapReduce之上提供额外的分析功能,但现在Yarn充当了一个平台,用于托管应用程序。一些人认为Yarn可以作为运行在Hadoop上的平台即服务(PaaS)的基础框架,可以与VMware的开源云计算PaaS竞争。

Murthy说,Apache Hadoop 2.0预计会在本周的某个时候发布测试版,并在接下来的几周发布通用可用性版本。一些最早采用Hadoop的公司,比如雅虎,已经对Yarn进行了测试,而那些创建商业代码发行版的公司也希望将Yarn集成到他们的产品中。例如,Hortonworks希望在夏中下旬的Hadoop发行版中加入Yarn功能。

那么2.0,特别是Yarn,是否代表了Hadoop的成长呢?高德纳(Gartner)分析师阿德里安(Adrian)表示:“绝对是。”“但主流组织需要依赖商业分销商,他们希望将任何东西投入真正的生产使用。”Hortonworks、Cloudera、MapR甚至IBM等公司都有该代码的商业发行版。虽然该项目可能正在成长,但Adrian指出,它仍处于“早期青春期”。不过,Yarn的加入对于支持在Hadoop上运行的应用程序这一新兴行业大有帮助。

足球竞猜app软件《网络世界》的资深作家布兰登·巴特勒介绍了云计算和社会协作。可以和他联系BButler@nww.com并在Twitter上找到@BButlerNWW

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对自己最关心的话题发表评论。

版权所有©2013 IDG Com足球竞彩网下载munications, Inc.

SD-WAN买家指南:向供应商(和您自己)提出的关键问题