Q&A: Hortonworks首席技术官展开大数据路线图

Hortonworks的Scott Gnau谈到了Apache Spark vs. Hadoop和动态数据

Hortonworks的业务建立在大数据和Hadoop上,但Hortonworks数据平台为Hadoop以外的一系列技术提供分析和特性支持,包括MapReduce、Pig、Hive和Spark。与此同时,Hortonworks DataFlow提供流媒体分析,并使用诸如apache nifi.和卡夫卡。

InfoWorld Executive Editor out Gaul Kririll最近与Hortonworks CTO Scott GNau发表过关于该公司如何看到数据业务的震动,Spark与Hadoop面对面,以及Hortonworks的发布策略和努力来构建数据流动作数据的平台。

InfoWorld:你如何确定Hortonworks目前的职位?

Gnau:我们坐在一个我们想要利用社区创新的甜蜜点。与此同时,我们也必须有点成年监督,以确保所有这些新的东西,当它集成时,工作。这是我们拥有的一个核心信念,我们真的对一个平台负责,而不仅仅是一系列技术。我们修改了我们将新版本带到市场的方式,使我们只纠正核心。当我说“rebase核心”时意味着新的HDFS,新的纱线.我们每年只对核心进行一次调整,但我们将每季度集成项目的新版本。这让我们可以做什么,当你考虑当你重新构建核心或者当你改变核心Hadoop功能时,有很多不同项目的交互。有很多测试,它带来了不稳定性。这是软件开发入门课程。这并不是因为糟糕的技术或糟糕的开发者。介绍了不稳定。

InfoWorld:这个重置基地的活动,你打算在每年的同一时间做吗?

Gnau:如果我们每年都这样做,是的,每年都会在同一时间。这就是我们的目标。下一个目标是在2017年下半年。在这期间,我们会有一个非rebase版本,我们可以添加新项目,或者添加新功能,或者添加新版本的项目到核心。

这体现在几个优势上。第一,我们认为我们可以以一种更容易消费的方式更快地推出更新的产品,因为它对我们的客户意味着稳定性。我们也相反地认为,我们的客户会更愿意接近最新的版本,因为可以很容易地理解什么是最新的,什么是改变的。

举个例子,我们最近发布了2.5版本,基本上在2.5版本中,我们只改变了两件事:Hive和Spark。如果你想到一个客户,他的运营人员在做变更管理,这就很容易了。在内部,我们第一次允许客户可以选择新版本的Spark或旧版本的Spark,或者两者同时运行。现在,如果你正在运行变更管理,你会说,“好吧,我可以安装所有的新软件,我可以默认它在旧版本的Spark上运行,所以我不需要去测试任何东西。”如果我有一些特性功能想要利用Spark的新版本,我可以让他们在这些应用程序中使用这个版本。

InfoWorld:有传言说Spark正在取代Hadoop.Spark和Hadoop之间到底发生了什么?

Gnau:我不认为这是火花与hadoop。这是火花和hadoop。我们一直非常成功,很多客户都非常成功地走下了这条道路。我提到的是,即使在我们的新版本中,当最新版本的火花出来时​​,它在发布到Git的90分钟内,它就在我们的分销中。我们高度致力于作为使用案例的执行引擎,所以我们不仅投入了包装,还与我们拥有的贡献和提交人一起投入,也是如此Apache飞艇,它使数据科学家和Spark用户能够创建笔记本,并更有效地共享算法,以及优化针对这些数据集编写的算法。我不认为它是非此即彼的,而更多的是一种“和”。

最后,对于那些对业务至关重要且面向客户的应用程序来说,平台的安全性、操作化、备份和恢复、业务连续性以及平台所附带的所有东西都具有很大的价值。再说一次,我认为“和”比“或”更重要。Spark对某些工作负载很好,但对另一些工作负载很糟糕,所以我不认为这是Spark与世界的对比。我认为Spark和其他用例才是有意义的。

InfoWorld:它在哪里有意义?很明显,你已经致力于Hive for SQL了。Spark还提供了一个SQL实现。你会利用它吗?这个领域很有趣,因为所有这些平台供应商都想为基本上每种处理提供每种工具。

Gnau:有些Spark供应商只想提供Spark。

InfoWorld:这是真的。我在想克劳德拉,你和mapr.它是Hadoop的老牌供应商。这些平台有许多工具,我们希望了解哪些工具被用于何种分析。

Gnau:对于Spark来说,简单的、在相当小的数据集上具有交互性。如果你使用pb,你将无法购买足够的内存来使Spark有效工作。如果你使用非常复杂的SQL,它是不会运行的。是的,有许多工具可以用于许多事情,最终,在小型数据用例上存在交互的、简单的、驻留在Spark中。有了这些参数中的任何一个,当你开始进入这些参数的流血边缘时,它就会变得不那么有效,而我们的目标是让它流血到Hive中。

InfoWorld:你对自己的平台有多固执?在决定不再支持某个工具或放弃某个工具时,你有多自由?

Gnau:任何产品公司能做的最困难的事情就是让产品退休,这是世界上最可怕的事情。我不知道你会不会看到我们经常退休,但也许会有一些东西被放回牧场。的好处是,还有一个生活社区,所以即使我们可能不会关注试图推动投资,因为我们没有看到需求市场,仍有一个社区,可以出去拿东西,我看到它更多的作为一个牧场。

InfoWorld:举个例子,Storm显然仍然是一个核心元素,我假设这是因为您认为它比Spark或其他的流处理方式更好。

Gnau:这不是一个更好的方法。它提供窗口功能,这对许多用例都很重要。我可以想象这样一个世界,你写SQL,你发送SQL,我们抓取它,我们会帮助决定它应该如何运行,在哪里运行。这对它本身的可持续发展是必要的。

我们在这里和占位符到那里有一些能力,但我认为作为一个行业,如果我们没有让它更简单消耗,那么行业范围内会有一个问题,无论我们是谁'Re Smart或Cloudera是聪明的,无论如何。它将是一个行业问题,因为它不会被群众消耗。它必须是消耗和容易的。我们要创建一些工具,可以帮助您决定如何部署和帮助您管理您可以在哪里进行何处,以便认为他们与API与API与API进行交流,我必须为此运行Hive和HBase不得不了解所有不同的东西。

InfoWorld:你能确定哪些新兴技术将在未来一年左右出现在这个平台上吗?

Gnau:其中最重要的是动态数据和静止数据的概念。当我说“动态数据”时,我指的不仅仅是流。我说的不仅仅是数据流。我说的是移动的数据如何处理所有这些事情?如何应用复杂事件处理,简单事件处理?你们是如何保证交货的?如何加密和保护如何验证和创建出处,所有动态数据的出处?我认为这是一个巨大的机会。

显然,我们制作了收购Onyara发布了基于Apache NiFi的Hortonworks DataFlow。这当然是最明显的事情之一。我想说的是不仅仅是NiFi你会看到里面的东西我们的hortonworks dataflow它包括NiFi, Storm和Kafka,一堆组件。你会看到我们将DataFlow建设成一个动态的数据平台,我们已经并且将继续沿着这些方向进行投资。当我外出时,人们问我:“你怎么看流媒体?”我说,流媒体只是动态数据问题的一个很小的子集。这是一个需要解决的重要问题。但我们需要把它看作一个更大的机会,因为我们不想只解决一个问题,然后又有六个阻碍我们成功的问题。这将是由设备,物联网,所有的流行词驱动的。

InfoWorld:在这个动态数据的未来,时间序列数据库,一个用来存储时间序列数据而不是使用其他数据的数据库,有多重要?

Gnau:时间序列分析很重要。我认为有很多方法可以设计这些分析。时间序列数据库是其中一种方法。我不知道所有用例是否都需要一个特定的时间序列数据库。也许有其他方法可以得到相同的答案,但时间序列和数据的时间特性越来越重要,我想你会看到一些成功的项目沿着这些思路出现。

这个故事,“Q&A: Hortonworks CTO展开大数据路线图”最初发表于信息世界

加入网络世界社区足球竞猜app软件脸谱网LinkedIn评论是最重要的主题。
相关:

版权©2016足球竞彩网下载

工资调查:结果在