Q&A: Hortonworks首席技术官展开大数据路线图

Hortonworks的Scott Gnau谈到了Apache Spark vs. Hadoop和动态数据

Hortonworks的业务建立在大数据和Hadoop上，但Hortonworks数据平台为Hadoop以外的一系列技术提供分析和特性支持，包括MapReduce、Pig、Hive和Spark。与此同时，Hortonworks DataFlow提供流媒体分析，并使用诸如apache nifi.和卡夫卡。

InfoWorld Executive Editor out Gaul Kririll最近与Hortonworks CTO Scott GNau发表过关于该公司如何看到数据业务的震动，Spark与Hadoop面对面，以及Hortonworks的发布策略和努力来构建数据流动作数据的平台。

InfoWorld：你如何确定Hortonworks目前的职位?

Gnau:我们坐在一个我们想要利用社区创新的甜蜜点。与此同时，我们也必须有点成年监督，以确保所有这些新的东西，当它集成时，工作。这是我们拥有的一个核心信念，我们真的对一个平台负责，而不仅仅是一系列技术。我们修改了我们将新版本带到市场的方式，使我们只纠正核心。当我说“rebase核心”时意味着新的HDFS，新的纱线．我们每年只对核心进行一次调整，但我们将每季度集成项目的新版本。这让我们可以做什么，当你考虑当你重新构建核心或者当你改变核心Hadoop功能时，有很多不同项目的交互。有很多测试，它带来了不稳定性。这是软件开发入门课程。这并不是因为糟糕的技术或糟糕的开发者。介绍了不稳定。

InfoWorld：这个重置基地的活动，你打算在每年的同一时间做吗?

Gnau:如果我们每年都这样做，是的，每年都会在同一时间。这就是我们的目标。下一个目标是在2017年下半年。在这期间，我们会有一个非rebase版本，我们可以添加新项目，或者添加新功能，或者添加新版本的项目到核心。

这体现在几个优势上。第一，我们认为我们可以以一种更容易消费的方式更快地推出更新的产品，因为它对我们的客户意味着稳定性。我们也相反地认为，我们的客户会更愿意接近最新的版本，因为可以很容易地理解什么是最新的，什么是改变的。

举个例子，我们最近发布了2.5版本，基本上在2.5版本中，我们只改变了两件事:Hive和Spark。如果你想到一个客户，他的运营人员在做变更管理，这就很容易了。在内部，我们第一次允许客户可以选择新版本的Spark或旧版本的Spark，或者两者同时运行。现在，如果你正在运行变更管理，你会说，“好吧，我可以安装所有的新软件，我可以默认它在旧版本的Spark上运行，所以我不需要去测试任何东西。”如果我有一些特性功能想要利用Spark的新版本，我可以让他们在这些应用程序中使用这个版本。

InfoWorld：有传言说Spark正在取代Hadoop．Spark和Hadoop之间到底发生了什么?

Gnau:我不认为这是火花与hadoop。这是火花和hadoop。我们一直非常成功，很多客户都非常成功地走下了这条道路。我提到的是，即使在我们的新版本中，当最新版本的火花出来时，它在发布到Git的90分钟内，它就在我们的分销中。我们高度致力于作为使用案例的执行引擎，所以我们不仅投入了包装，还与我们拥有的贡献和提交人一起投入，也是如此Apache飞艇，它使数据科学家和Spark用户能够创建笔记本，并更有效地共享算法，以及优化针对这些数据集编写的算法。我不认为它是非此即彼的，而更多的是一种“和”。

最后，对于那些对业务至关重要且面向客户的应用程序来说，平台的安全性、操作化、备份和恢复、业务连续性以及平台所附带的所有东西都具有很大的价值。再说一次，我认为“和”比“或”更重要。Spark对某些工作负载很好，但对另一些工作负载很糟糕，所以我不认为这是Spark与世界的对比。我认为Spark和其他用例才是有意义的。

InfoWorld：它在哪里有意义?很明显，你已经致力于Hive for SQL了。Spark还提供了一个SQL实现。你会利用它吗?这个领域很有趣，因为所有这些平台供应商都想为基本上每种处理提供每种工具。

Gnau:有些Spark供应商只想提供Spark。

InfoWorld：这是真的。我在想克劳德拉，你和mapr.它是Hadoop的老牌供应商。这些平台有许多工具，我们希望了解哪些工具被用于何种分析。

Gnau:对于Spark来说，简单的、在相当小的数据集上具有交互性。如果你使用pb，你将无法购买足够的内存来使Spark有效工作。如果你使用非常复杂的SQL，它是不会运行的。是的，有许多工具可以用于许多事情，最终，在小型数据用例上存在交互的、简单的、驻留在Spark中。有了这些参数中的任何一个，当你开始进入这些参数的流血边缘时，它就会变得不那么有效，而我们的目标是让它流血到Hive中。

InfoWorld：你对自己的平台有多固执?在决定不再支持某个工具或放弃某个工具时，你有多自由?

Gnau:任何产品公司能做的最困难的事情就是让产品退休，这是世界上最可怕的事情。我不知道你会不会看到我们经常退休，但也许会有一些东西被放回牧场。的好处是,还有一个生活社区,所以即使我们可能不会关注试图推动投资,因为我们没有看到需求市场,仍有一个社区,可以出去拿东西,我看到它更多的作为一个牧场。

InfoWorld：举个例子，Storm显然仍然是一个核心元素，我假设这是因为您认为它比Spark或其他的流处理方式更好。

Gnau:这不是一个更好的方法。它提供窗口功能，这对许多用例都很重要。我可以想象这样一个世界，你写SQL，你发送SQL，我们抓取它，我们会帮助决定它应该如何运行，在哪里运行。这对它本身的可持续发展是必要的。

我们在这里和占位符到那里有一些能力，但我认为作为一个行业，如果我们没有让它更简单消耗，那么行业范围内会有一个问题，无论我们是谁'Re Smart或Cloudera是聪明的，无论如何。它将是一个行业问题，因为它不会被群众消耗。它必须是消耗和容易的。我们要创建一些工具，可以帮助您决定如何部署和帮助您管理您可以在哪里进行何处，以便认为他们与API与API与API进行交流，我必须为此运行Hive和HBase不得不了解所有不同的东西。

InfoWorld：你能确定哪些新兴技术将在未来一年左右出现在这个平台上吗?

Gnau:其中最重要的是动态数据和静止数据的概念。当我说“动态数据”时，我指的不仅仅是流。我说的不仅仅是数据流。我说的是移动的数据如何处理所有这些事情?如何应用复杂事件处理，简单事件处理?你们是如何保证交货的?如何加密和保护如何验证和创建出处，所有动态数据的出处?我认为这是一个巨大的机会。

显然，我们制作了收购Onyara发布了基于Apache NiFi的Hortonworks DataFlow。这当然是最明显的事情之一。我想说的是不仅仅是NiFi你会看到里面的东西我们的hortonworks dataflow它包括NiFi, Storm和Kafka，一堆组件。你会看到我们将DataFlow建设成一个动态的数据平台，我们已经并且将继续沿着这些方向进行投资。当我外出时，人们问我:“你怎么看流媒体?”我说，流媒体只是动态数据问题的一个很小的子集。这是一个需要解决的重要问题。但我们需要把它看作一个更大的机会，因为我们不想只解决一个问题，然后又有六个阻碍我们成功的问题。这将是由设备，物联网，所有的流行词驱动的。

InfoWorld：在这个动态数据的未来，时间序列数据库，一个用来存储时间序列数据而不是使用其他数据的数据库，有多重要?

Gnau:时间序列分析很重要。我认为有很多方法可以设计这些分析。时间序列数据库是其中一种方法。我不知道所有用例是否都需要一个特定的时间序列数据库。也许有其他方法可以得到相同的答案，但时间序列和数据的时间特性越来越重要，我想你会看到一些成功的项目沿着这些思路出现。

这个故事，“Q&A: Hortonworks CTO展开大数据路线图”最初发表于信息世界．

加入网络世界社区足球竞猜app软件脸谱网和LinkedIn评论是最重要的主题。

Paul Krill是InfoWorld的一名普通编辑，他的报道重点是应用程序开发。

工资调查:结果在