为什么谷歌的BigQuery擅长于BI大数据并发

您应该使用Hadoop来满足您的大数据商业智能需求吗?BigQuery吗?在本地的Hadoop、云中的Hadoop和像谷歌BigQuery这样的无服务器模型之间有什么区别?来自AtScale的一个新基准可以帮助你解决这些问题。

肖像历史

如果你正在试图做的大数据和处理大量并发查询的能力,商业智能(BI)对你是一个关键的问题,谷歌的BigQuery很可能要走的路,根据一项新的商业智能基准周四,AtScale发布了一份报告,这是一家专门帮助企业实现BI大数据的初创公司。

[相关阅读:谷歌BigQuery update旨在吸引Hadoop用户]

“并发一直是一个致命的弱点,对于SQL-ON-Hadoop的一个挑战,”乔希Klahr,为AtScale产品管理的副总裁。

但是AtScale的基准测试发现并发性是BigQuery最大的优势。它的无服务器模型意味着小数据集上的并发查询性能没有显示出查询性能的下降,即使查询量超过25个并发BI用户。

[相关阅读:谷歌的新的云服务简化了机器学习数据准备]

“并发,我认为,是最大的一个,” Klahr说。“但与BigQuery用户体验也是非常好的也许这并不奇怪,因为谷歌已经集中了这么多的消费电子产品,多年来:关于使用该产品的一切是非常好的事情,实际上花了最长的是装载从本地网络到云中的数据。一旦我们有数据存在,该表的创建是很容易“。

在其基准测试中,AtScale使用了与去年为其部署的相同的模型SQL-on-Hadoop引擎的基准测试在BI工作负载。对于该测试,其想法是帮助技术评估人员为他们的BI用例选择最好的SQL-on-Hadoop技术。谷歌BigQuery基准测试的目标是相同的。

Constellation Research副总裁兼首席分析师Doug Henschen周四在一份声明中表示:“AtScale基准为企业领导者提供了有用的比较,他们需要这些比较来帮助BI处理大数据。”“随着数据变得越来越复杂和多样化,这些基准统计数据帮助企业了解领先的大数据查询选项,并做出更好的决策,这对支持BI基础设施至关重要。”

[相关阅读:谷歌的BigQuery将大数据带到云端]

AtScale的测试团队使用星型架构基准测试(SSB)数据集的基础上,广泛使用TPCH数据,修改,以更准确地表示典型的BI-面向数​​据布局。该数据集允许测试团队测试查询整个大表:lineorder表包含接近6个十亿行和大客户表中包含超过十亿行。

对于谷歌的BigQuery基准,AtScale看着它用于评估SQL-ON-Hadoop的发动机,去年和他们的健身满足BI工作负载相同的三个关键要求:

  • 执行大数据。hadoop上的sql引擎必须能够一致地分析数十亿或数万亿行数据,而不会产生错误,响应时间为10秒或100秒。
  • 快速处理小数据。该引擎需要在已知的查询模式上提供交互性能,因此,对于小型数据集(数千或数百万行),SQL-on-Hadoop引擎返回的结果不超过几秒钟是很重要的。
  • 稳定的许多用户。企业BI用户群由数百甚至数千个数据工作者组成。底层的SQL-on-Hadoop引擎必须在高度并发的分析工作负载下可靠地执行。

去年,AtScale发现Apache Impala 2.3、Apache Spark 1.6和Apache Hive 1.2这三个它所测试的SQL-on-Hadoop引擎都有独特的优点和缺点,这使得它们更适合某些BI用例,而不太适合其他的BI用例。例如,Hive是最慢的引擎,这使得它不适合交互式查询,但到目前为止,它是三种引擎中最稳定的,在多个查询类型之间具有最佳的一致性。Impala和Spark都更适合较小的数据集。

作为Klahr笔记,BigQuery的提供并发性的最佳支持。它也没有需要调整或系统配置的方式,开始使用了。

“BigQuery不需要做太多调优,也不允许做太多工具,”他说。“我们对Hive、Impala和Spark SQL的经验是,每个引擎可能需要几天到几周的时间来获得正确的参数。”

AtScale发现,BigQuery管理控制台、查询工具和文档使其易于使用并支持快速登录。此外,将数据移动到谷歌云并将其加载到BigQuery的过程非常简单且有良好的文档记录,不过Klahr指出,使用云本地数据的过程肯定比使用内部数据的过程更快。

就性能而言,BigQuery并没有Impala和Spark SQL吹嘘的那么强大,但也很接近,Klahr说。

Klahr说:“值得考虑的是获得绩效需要付出多少努力,以及获得可接受的绩效需要付出多少努力。”

如果BigQuery有一个方面明显落后于其他选项,那就是连接。

“它不处理大型加入非常好,” Klahr说。“[谷歌]确实正在积极推进嵌套的数据结构,其中所有的数据都在一个表。”

马特·贝尔德,CTO和AtScale的联合创始人,他认为最近的基准测试显示的结果多少大数据市场已经成熟,而平台厂商如谷歌已经成为一个可行的解决方案,以增加企业的组合。

“这个基准测试的结果表明在大数据市场的快速发展,”他在一份声明中说,星期四。“这样的速度可以是艰巨的企业,因为他们已经与复杂了相当数量的处理:??他们应该使用Hadoop的他们应该使用的BigQuery有什么之间的内部部署Hadoop的,在云Hadoop和无服务器模型像谷歌的区别?这就是为什么我们开始AtScale。”

相关视频:

这个故事,“大数据并发为什么谷歌的BigQuery擅长于BI”最初发表CIO

加入对网络世界的社足球竞猜app软件区Facebook的LinkedIn对那些顶级心态的话题发表评论。

版权©2017足球竞彩网下载

工资调查:结果在