HPCC挑战Hadoop的大数据霸主地位

Hadoop无处不在,但一个强大的竞争对手正在市场上取得进展。这一切都要归功于多年的生产使用,以及价值数十亿美元的LexisNexis数据库所依赖的坚实的大数据血统。

当你听到“大数据”这个词时,下一个经常听到的词是“Hadoop”。这是因为使大量数据可访问的底层技术是基于开源的Apache Hadoop项目

从外部看,你会理所当然地认为Hadoop大数据,反之亦然;没有一个,另一个就不可能存在。但是Hadoop还有一个竞争对手,它在很多方面都更加成熟,并且已经为企业做好了准备:高性能计算集群。

[也:值得关注的11家开源公司

HPCC系统是从数据服务公司剥离出来的吗律商联讯自21世纪初以来,数据即服务(data-as-a-service,简称DaaS)一直在为该公司价值15亿美元的庞大业务提供动力。

像Hadoop一样,HPCC是在Apache 2.0许可下开放源码的,并且可以免费使用。两者都同样利用了通过IP网络互连的商品硬件和本地存储,允许跨架构进行并行数据处理和/或查询。LexisNexis信息安全副总裁兼HPCC系统项目负责人Flavio Villanustre说,这就是大多数相似之处。

HPCC比Hadoop更老,更聪明?

HPCC已经在生产使用超过12年,尽管HPCC开源版本只有一年多一点。另一方面,Hadoop最初是Nutch谷歌用来解析和分析日志文件的项目,直到2006年才有了自己的Apache项目。但从那时起,它就成为了大数据项目事实上的标准,用户数量远远超过了HPCC约60家企业用户。Hadoop还得到了数以百万计的开源社区的支持,以及利用这一领先地位而涌现出来的整个初创企业生态系统。

新闻:Hadoop Creator概述了大数据平台的未来

也就是说,HPCC是一个更成熟的企业级包,它使用一种称为企业控制语言的高级编程语言(发射极耦合逻辑)基于c++,而不是Hadoop的Java。Villanustre说,这使得HPCC在易用性以及生产的备份和恢复方面具有优势。在HPCC中速度得到了提高,因为c++在操作系统上本机运行,而Java需要Java虚拟机(JVM)来执行。

Forrester Research的应用开发和交付副总裁兼首席分析师Boris Evelson说,HPCC还拥有更多的关键任务功能。因为HPCC已经使用了很长时间,所以它拥有Hadoop所缺乏的安全、恢复、审计和遵从等层次。Evelson说,在搜索过程中丢失的数据不会永远消失。它可以像传统的数据仓库一样被恢复Teradata

指南:在Hadoop中保护大数据

赛门铁克(Symantec)负责大数据产品的高级经理斯里尼瓦桑(Rags Srinivasan)在2012年5月的一篇博客文章中提到了这个缺点企业Hadoop的问题:“Hadoop集群没有可靠的备份解决方案。”hadoop存储三份数据的方式与备份不同。它不提供存档或及时恢复。”

虽然Hadoop在这些领域还不太成熟,但它并不打算用于生产环境,所以这些区别目前可能不是那么重要,Jeff Kelly,大数据分析师说Wikibon.它的用途是分析大量数据,找到迄今为止难以连接的数据点之间的关联。一旦发现这些点,数据通常会转移到更传统的业务智能解决方案和数据仓库进行进一步分析。

分析:大数据如何将BI和预测分析结合在一起

“目前,Hadoop最常见的用例是作为大规模的暂存区,”Kelly说。“从本质上讲,(它)是一个为大量的多非结构化数据添加结构的平台,这样就可以通过关系式数据库技术对数据进行分析。”

ECL:一种具有拖放接口的高级查询语言

Villanustre说,ECL的另一个关键好处是,它非常类似于SQL等高级查询语言。如果您是Microsoft Excel专家,那么,使用ECL应该没有问题。

HPCC与分析提供商的合作进一步简化了查询的开发Pentaho它是开源的水壶项目,它允许用户在拖放界面中创建ECL查询。这对于Hadoop来说是不可能的蜂巢查询语言。

HPCC也被设计用来回答现实世界的问题。Hadoop要求用户为他们寻找的每个变量组合单独的查询;HPCC没有。

“ECL有点像SQL……因为它是陈述性的,所以你告诉电脑你想要什么,而不是怎么做。”另一方面,Pig和Hive则相当原始。“它们很难编程,很难维护,也很难扩展和重用代码,而这些代码是任何计算机语言成功的关键因素。”

Hadoop的优势?它是可扩展的,灵活的,便宜的

Charles Zedlewski,公司产品副总裁Cloudera他不同意这种观点。毕竟,Cloudera是最知名、最成功的Hadoop初创企业之一,为eBay、雪佛龙(Chevron)和诺基亚(Nokia)等公司提供全套Hadoop实现。

“事实上,与之前的数据管理系统相比,今天的Hadoop可能有能力满足更广泛的终端用户,这一直是Hadoop的优势,”Zedlewski说。“Hadoop在三件事上做得非常好,那就是它非常可伸缩,非常灵活,而且非常便宜。”

除了灵活和健壮之外,这最后一点也吸引了很多人对Hadoop感兴趣。然而,虽然Hadoop运行在普通硬件上,但您要么必须雇人把所有的东西放在一起,要么找到第三方供应商,比如Cloudera来为您做这些事情。有了HPCC,您所需要的许多功能都是现成的,而且它也可以在普通的机器上运行。

分析:企业通过合作伙伴满足Hadoop技能需求

在最后的分析中,一方面,如果您正在寻找一个更健壮的解决方案,提供企业级的功能,那么HPCC可能是一条路。另一方面,如果你只是想了解大数据是什么,然后Hadoop可能是更好的选择,因为它有一个巨大的开源生态系统开发人员每天和大量的第三方公司涌现利用大数据代表的机会。

“驱动这一切的宏观趋势是数据的爆炸,”Zedlewski说。“数据的增长速度超过了摩尔定律,这就要求我们采用不同的架构和不同的数据处理方式。它比摩尔定律增长得更快的原因是越来越多的东西连接到电脑上,无论是你的房子,你的电视,你的手机,你乘坐的航班。当这种情况发生时,它们最终都会以惊人的速度生成数据。”

Allen Bernard是俄亥俄州哥伦布市的一位作家,主要研究IT管理和将技术集成到企业中的问题。你可以通过电子邮件或者在推特上关注他@allen_bernard1.在Twitter上关注CIO.com上的一切@CIOonline,在脸谱网,在谷歌+

阅读更多关于大数据的内容CIO的大数据深入挖掘。

这篇文章《HPCC挑战Hadoop的大数据优势》最初是由首席信息官

加入网络世界社区足球竞猜app软件脸谱网LinkedIn对自己最关心的话题发表评论。

版权所有©2013 IDG Com足球竞彩网下载munications, Inc.

SD-WAN买家指南:向供应商(和您自己)提出的关键问题