Hortonworks发布了下一代Apache Hadoop的预览版,该预览版承诺将扩大数据处理平台上可以进行的各种分析的范围。
图片来源:IDG新闻服务
新的Apache YARN调度器通过提供更通用的资源管理框架取代了MapReduce
Hortonworks创始人、Hadoop开发核心工程师之一阿伦·穆尔蒂(Arun Murthy)说:“Hadoop 2.0确实是一个根本性的架构变革,它使Hadoop显著地超越了批处理平台。”他说,这一更新“将催生一波全新的创新浪潮”。
最值得注意的是,Hortonworks数据平台2.0社区预览包含了许多针对Hadoop环境的新组件纱(Yet Another Resource Negotiator),它是Hadoop的MapReduce作业调度程序的继承者。
Hadoop开始时是一个“单一应用平台”,一个主要构建的平台用于抓取和索引Web内容默菲说。现在很多组织都在寻找其他类型的工作,比如交互式查询或实时数据流的分析。
YARN通过扩展可以在Hadoop平台上完成的作业类型来改进MapReduce。MapReduce几乎只能管理批处理作业,跨任意数量的节点执行数据分析,并在完成后返回结果。
相比之下,YARN是一个通用的资源管理框架。它为运行非批处理作业提供了基础,例如那些在实时数据流上无限期运行的作业,以及那些涉及交互查询(用户在其中动态地查询数据)的作业。Murthy说:“现在在YARN中可以同时运行批处理MapReduce作业和交互式SQL查询。”
使用YARN,“你有一个集群,它知道所有不同类型的工作负载和资源需求,因此它们可以共存。你不会看到一个工作量占据或接管集群的所有资源,”Hortonworks公司战略副总裁肖恩·康诺利(Shaun Connolly)说。以前,组织必须运行单独的集群来执行不同风格的工作。
HDP 2.0还包括一些其他的新组件,包括Apache特斯,是YARN的一个附加组件,用于加速大型交互式作业好讽刺人的人,提供了对Hadoop存储库运行SQL查询的能力。
这个预览黄芪丹参滴丸2.0,一个完整的Hadoop发行版,运行在Oracle VirtualBox或VMware虚拟环境中。
Hortonworks在今年的HDP大会上发布了HDP 2.02013年Hadoop峰会本周将在加州圣何塞举行。Rackspace也出席了这次会议宣布它将提供Hadoop作为一种服务,并使用Pentaho提供的分析工具。Splunk发布了一个新工具,名为Hunk,用于探索Hadoop存储库。数据仓库系统提供商Teradata公布了新Hadoop电器。和VMware更新支持Hadoop集群的vSphere虚拟化管理软件。
约押杰克逊报道企业软件和通用技术突发新闻IDG新闻服务.请在Twitter上关注约押@Joab_Jackson.约押的电子邮件地址是Joab_Jackson@idg.com