Cloudera扩展了Hadoop生态系统

Cloudera发布了其Hadoop发行版的第三版

随着Hadoop发行版的发布,Cloudera从根本上扩展了数据处理框架的支持工具集。

“我们看到的是,大多数组织部署的不仅仅是Hadoop。Cloudera的产品副总裁Charles Zedlewski说:“现在人们在生产环境中运行的Hadoop生态系统是由其他开源组件组成的。”

与它的Hadoop包CHD3版本,Cloudera添加并集成了7个额外的程序Zedlewski认为,所有这些都将有助于平稳地设置和运行Hadoop作业。

佐德lewski说:“人们将会想要使用一个完整的系统,这个系统已经全部经过测试并集成在一起。”

之前版本的Cloudera包包括核心Hadoop程序、Hive数据仓库软件和Pig数据流脚本语言。核心Hadoop包本身包含MapReduce分布式劳动力引擎、Hadoop分布式文件系统(HDFS)和一组被称为Hadoop Commons的工具。

新的软件包包括了一些附加的程序,比如名为Flume的数据聚合工具、名为Sqoop的数据格式转换器、名为Hue的Hadoop图形用户界面,以及名为Zookeeper的配置工具。所有工具都是开源的,遵循Apache Foundation许可证。

Hadoop最初是作为Apache Lucene搜索引擎的一个分支开发的,它是一个框架用于处理大量分散的数据跨多个节点。它特别适合于处理和分析大量机器生成的数据,而这些数据不适合标准关系数据库。

Zedlewski说,新的发行版可以简化建立Hadoop作业所需的大量工作。他举了一个例子,说明这些附加工具如何帮助加快点击流分析,这涉及到建立用户如何点击不同网站的记录。

点击流跟踪的源数据来自多个服务器的活动日志。他说:“从2000台服务器上收集点击流数据不是小事。”数据必须放入Hadoop文件系统,然后根据每个人的会话重新组织。这种“会话过程”可能涉及40个或更多的步骤。在组织好材料之后,必须以易于访问的格式将其导出到数据仓库或数据库。

这个新版本通过提供工具将数据导入Hadoop、在Hadoop中重新组织数据以及将结果数据再次导出,从而消除了大量的脚本工作。

免费下载CHD3包与Red Hat、CentOS、SuSE和Ubuntu Linux发行版兼容。它还可以在Amazon和Rackspace云服务上运行,并与商业智能和ETL (extract load and transform)供应商工具集成,例如由Informatica、Jaspersoft、Microstrategy、Neteeza和Teradata提供的工具。

约押·杰克逊报道企业软件和通用技术的突发新闻IDG新闻服务。在推特上关注约押@Joab_Jackson。约押的电子邮件地址是Joab_Jackson@idg.com

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对最重要的话题发表评论。
相关:

版权©2011足球竞彩网下载

工资调查:结果在