HDP 2.0构建在Apache Hadoop YARN架构上,将Hadoop从一个单一用途的web规模的批处理数据平台转变为多用途的操作系统,实现批处理、交互式、在线和流处理。
举个例子:在Hadoop上运行SQL。多年来,业务分析师一直使用SQL作为查询语言,对数据仓库执行特别查询。如果您使用Hadoop创建数据湖,那么您必须能够使用SQL查询该数据。
“但通过在Hadoop之上构建SQL访问,它只是突显了Hadoop作为一个单一应用系统的挑战。”写Arun Murthy是Hortonworks前建筑师雅虎Hadoop Map-Reduce开发团队。“因为当我对该数据运行SQL查询时,它可能会消耗集群的所有资源,并导致集群中运行的其他应用程序和作业的性能问题——这至少不是一个好的结果。”
这个问题的答案是YARN (Yet Another Resource Negotiator),它是最近发布的Hadoop 2的基础。Apache Hadoop YARN作为Hadoop操作系统,将一个单用途的数据平台用于批处理,并将其发展为一个多用途的平台,支持批处理、交互式、在线和流处理。
YARN作为访问存储在Hadoop分布式文件系统(HDFS)中的数据的主要资源管理器和中介,使企业能够将数据存储在单个位置,然后以多种方式与之交互,同时具有一致的服务级别。
Hortonworks数据平台(HDP)是Hadoop最流行的发行版之一,它的供应商Hortonworks今天很快就拿起了YARN的旗帜,宣布了YARN的通用可用性黄芪丹参滴丸2.0.
HDP 2.0是第一个构建在Hadoop 2上的商业发行版,它提供了基于yarn的架构和Hadoop第二阶段的新特性好讽刺人的人行动.Stinger Initiative是一项基于社区的努力,旨在提高Apache Hive支持的SQL语义的速度、规模和广度。
Hortonworks公司战略副总裁Shaun Connolly表示:“基于yarn的HDP 2.0架构实现了我们的使命,通过提供一个与现有和未来数据中心技术集成的企业级Hadoop,实现了现代数据架构。2020欧洲杯预赛
Connolly补充道:“在我们与一些客户合作的基准测试中,经典的MapReduce作业将从1.0行移植到2.0行。“你可以获得两倍的性能,可以完成两倍的工作。你会在集群中获得更大的空间。”
同时,Hive 0.12的加入(Stinger Initiative第二阶段的高潮)为查询提供了巨大的性能提升,使其符合“人工交互响应时间而不是批处理响应时间”。
Connolly说,以前需要1400秒才能得到响应的查询现在只需不到10秒就能得到响应。第三阶段(目标为2014年第一季度),通过允许中间处理发生在记忆中,预计将进一步改善这些响应时间。
HDP 2.0现在可以下载了。康诺利说Windows版的HDP 2.0将于下个月推出。
托尔Olavsrud涵盖IT安全、大数据、开源、微软工具和服务器。在推特上关注雷神@ThorOlavsrud.在Twitter上关注CIO.com上的一切@CIOonline,脸谱网,谷歌+和LinkedIn.
阅读更多关于大数据的内容CIO的大数据深入挖掘。
这个故事,“Hortonworks使Hadoop在新发行版中更多功能”最初是由首席信息官 .