在HADOOP发动机上如何满足BI工作量的不同SQL

Sql-on-Hadoop发动机Impala,Spark和Hive的新基准是在商业智能(BI)工作量方面都有自己的优势和劣势。

BI商业智能TS
Thinkstock

根据新的基准测试,三个领先的SQL-on-Hadoop引擎-Apache Impala 2.3,Apache Spark 1.6和Apache Hive 1.2 - 都具有独特的优点和劣势,使它们非常适合某些商业智能(BI)使用案例(BI)使用案例和案例。不太适合他人。

“结论实际上是一个引擎不符合所有要求,”Atscale,一家专门启用Hadoop BI的初创公司。“我们在部署中为客户所做的就是插入多个引擎。”

为了关于Hadoop基准的商业智能,ATSCALE着手帮助技术评估人员为其BI用例选择最佳的SQL-HADOOP技术。Atscale的测试团队使用了Star模式基准(SSB)基于广泛使用的TPCH数据的数据集修改为更准确地代表典型的双向数据布局。数据集允许测试团队在大表格上测试查询:线条表包含近60亿行,大型客户表包含十亿行。

[ 有关的:AtScale看起来很容易在Hadoop上添加BI这是给予的

Hadoop On-Hadoop引擎具有不同的“最佳点”工作负载

玛丽安尼(Mariani)解释说,Atscale研究了三个关键要求,以评估HADOOP机上的SQL-on-hadoop发动机及其满足BI工作量的适合度:

  • 执行大数据。hadoop上的SQL发动机必须能够始终如一地分析数十亿或数万亿的数据,而无需产生错误,并且在10秒或100秒的订单上具有响应时间。
  • 快速获取小数据。该引擎需要在已知查询模式上提供交互式性能,因此,重要的是,Hadoop On-Hadoop引擎返回率在小型数据集上不超过几秒钟(按数千或数百万行的顺序产生大于几秒钟)。
  • 对于许多用户而言稳定。企业BI用户群由数百甚至数千名数据工作者组成。在高度并发分析工作负载下,基础SQL-HADOOP引擎必须可靠地发挥作用。

玛丽安尼(Mariani)领导了建立雅虎!BI最大的OLAP立方体的努力,他说,他认为这三个标准代表了普通企业在Hadoop上的普通企业的主要要求。该标准来自测试团队与许多公司在金融服务,医疗保健,零售,电信和其他行业的经验。

Atscale产品管理副总裁Josh Klahr补充说:“我们利用现实世界中的企业经验来生产一个文档,每个技术评估者都可以用作其评估过程的一部分。”

测试团队发现所有三个发动机都通过了测试,并且足够稳定以支持BI工作负载,但是一台引擎不符合所有需求。每个人都有自己的“最佳点”,企业可能会发现所有引擎的混合使用可能最适合其目标。

[ 有关的:BI上的Tableau Partners在Hadoop上这是给予的

虽然Hive通常被认为是HADOOP SQL-on-HADOOP的默认值,但它是基准中最慢的发动机,使其适合互动查询。

玛丽安尼说:“如果您想专门使用Hive Tez作为交互式查询引擎,那么您要做的最好的就是2.4秒。”

但是,尽管它可能很慢,但Hive也是三个引擎中最稳定的,在多种查询类型中具有最佳的一致性。

玛丽安尼补充说:“蜂巢蒂兹是乌龟。”“它将始终以壮观,快速的方式完成比赛。这是最可靠的。”

另一方面,Impala和Spark在较小的数据集方面处于最佳状态。Impala在一系列工作负载中占据了火花,但玛丽安尼指出,Spark 1.6比Spark 1.5的表现巨大,他希望这种趋势会继续下去,因为Spark吸引了一个大型开源社区,专注于其发展。克卢德拉(Cloudera)最近提议向阿帕奇软件基金会(Apache Software Foundation)捐赠黑斑羚,这也可以为其开发带来额外的势头。

[ 有关的:MAPR的目标是将sql-on-hadoop提升到一个新的水平这是给予的

目前,Impala是需要大量用户的用例的国王。

玛丽安尼说:“在并发方面,黑斑羚会踢屁股。”“如果您要有一堆运行小型,快速查询的用户,那么Impala是一个比Spark的选择要好得多。”

他补充说:“如果速度不是优先事项,而是稳定性和可靠性,我会选择将Hive Tez用作数据管道引擎。”“对于那些大批量的工作负载,我会选择Hive Tez。如果我希望BI用户可以访问我的仓库,我会选择使用Spark或Impala。”

玛丽安尼(Mariani)指出,尽管团队没有为其他引擎(例如Apache Drill或Apache Presto)进行基准测试,但下次他们将进行。

他说:“在释放和释放之间,您永远不会成为赌注更好的马匹。”

这个故事是“不同的SQL-on-Hadoop引擎满足BI工作负载”最初由CIO

加入网络世界社区足球竞猜app软件FacebookLinkedIn评论最重要的主题。
有关的:

版权所有©2016足球竞彩网下载

IT工资调查:结果在