超越Hadoop的大数据需求

对于那些需要新的、更快的方法从大量数据集中提取业务价值的企业来说,Hadoop已经不够了

Hadoop和MapReduce长期以来一直是大数据运动的主流,但现在一些公司需要新的、更快的方法来从大量且不断增长的数据集中提取业务价值。

尽管许多大型组织仍在转向开源Hadoop大数据框架,但其创建者谷歌和其他组织已经转向了更新的技术。

Apache Hadoop平台是谷歌文件系统和谷歌MapReduce技术的开源版本。它是由搜索引擎巨头谷歌开发的,用于管理和处理大宗商品硬件上的海量数据。

它是谷歌用来抓取和索引Web的处理技术的核心部分。

在过去三年左右的时间里,数百家企业已经采用Hadoop来管理大量快速增长的结构化、半结构化和非结构化数据。

开源技术已经被证明是比传统的企业级数据仓库技术的应用,如日志和事件数据分析,安全事件管理,社交媒体分析和涉及PB级数据集的其他应用程序更便宜的选择。

分析人士指出,一些企业已经开始超越Hadoop,不是因为技术上的限制,而是因为它的设计目的。

Hadoop是为处理批处理作业而构建的,其中数据是成批收集和处理的。Hadoop环境中的数据被分解并存储在高度分布式的商品服务器或节点集群中。

为了得到从数据的报表,用户必须先写一份工作,提交并等待它得到分发到所有节点,并得到处理。

虽然Hadoop平台运行良好,但对于一些关键应用程序来说,它还不够快,莫纳什研究公司(Monash Research)的数据库和分析专家、负责人科特莫纳什(Curt Monash)说。例如,Hadoop在运行针对大型数据集的交互式、特别查询时表现不佳,他说。

“Hadoop的有是交互式响应麻烦,”莫纳什说。“如果你能忍受几秒钟的延迟,Hadoop是好的。但是,Hadoop的MapReduce的永远不会是亚秒级时延非常有用。”

需要这些功能的公司已经将目光投向Hadoop之外的大数据分析需求。

事实上,谷歌大约在5年前就开始使用一种内部开发的技术Dremel,交互式地分析或“查询”其遍布世界各地的数千台服务器所生成的大量日志数据。

谷歌表示,Dremel技术支持“在共享的商品机器集群上对非常大的数据集进行交互分析”。

该技术可以运行在几秒钟内过万亿行数据表的查询,并扩展到成千上万的CPU和PB级数据,并支持像语言SQL查询,很容易让用户与数据交互,并制定即席查询,谷歌表示,。

虽然传统的关系数据库管理技术多年来一直支持交互式查询,但Dremel提供了更大的可伸缩性和速度,谷歌说。

成千上万在谷歌业务的用户使用的Dremel用于多种应用,如分析抓取的网页文件,跟踪Android应用程序,崩溃报告安装数据和维护磁盘成千上万的磁盘I / O统计信息。

然而,Dremel并不能取代MapReduce和Hadoop,谷歌最近推出的BigQuery的产品经理Ju-kay Kwek说,基于Dremel的大数据分析服务。

谷歌与MapReduce的结合使用的Dremel,他说。MapReduce的Hadoop的使用做准备,清理,转换和服务器日志数据的阶段,大量的,然后的Dremel是用来对数据进行分析。

Kwek说,Hadoop和Dremel都是分布式计算技术,但每一种技术的建立都是为了解决非常不同的问题。

例如,如果谷歌正试图解决其Gmail服务出​​现问题,那就需要通过看日志海量数据快速确定问题。

“Gmail的拥有450万个用户。如果每个用户都必须使用Gmail几百相互作用认为事件和互动,我们将不得不日志的数量,”郭令说。

“的Dremel允许我们进入系统,并开始询问投机查询这些日志,”郭令说。一个谷歌工程师可能会说,“告诉我一切均高于10秒的响应时间。现在,通过区域拿出来给我,”郭令说。的Dremel使工程师能够非常迅速地找准放缓正在发生,郭令说。

“的Dremel在许多,许多机器分布数据,并查询分发到所有的服务器,并要求每一个‘你有我的答案吗?’然后,它聚集并回来的答案字面上秒。”

使用Hadoop和MapReduce完成相同的任务需要更长的时间,因为它需要编写作业、启动作业并等待作业在集群中传播,然后才能将信息发送回用户。“你可以这么做,但这很麻烦。这就像用杯子切面包一样。”

Kwek说,几年前将谷歌推向Dremel的数据量在一些主流企业组织中也开始出现。

汽车、制药、物流和金融服务行业的公司不断被数据淹没,他们正在寻找工具来帮助他们快速查询和分析数据。

谷歌的托管的BigQuery分析服务被定位在利用需要新的大数据技术的优势。

其实,说Gartner分析师丽塔萨拉姆,基于的Dremel托管服务可能是一个改变游戏规则的大数据分析。

Sallam说,该服务允许企业以交互方式查询大量数据集,而不需要购买昂贵的底层分析技术。她说,企业可以探索和试验不同的数据类型和不同的数据量,而成本只是购买企业数据分析平台的一小部分。

她说,BigQuery真正值得注意的方面不是它的底层技术,而是它降低大公司IT成本的潜力。

Sallam说:“与传统的企业数据平台相比,它提供了一种成本更低的分析大数据的方法。”

商业智能产品的主要供应商,包括SAS Institute、SAP、甲骨文公司(Oracle)、Teradata和惠普公司(Hewlett-Packard Co.)等,一直在争先恐后地推出能够提高数据分析能力的工具。与谷歌一样,大多数供应商主要将Hadoop平台视为一个巨大的数据存储库,用于准备和准备用于其他工具分析的多结构数据。

就在上周,SAP推出一个新的大数据包,旨在让大型组织集成Hadoop环境与SAP的HANA内存数据库和相关技术。

捆绑的产品使用SAP HANA平台从Hadoop环境中读取和加载数据,然后使用SAP的报告和分析工具对数据进行快速交互分析。

SAS宣布几周前,它的高性能分析服务器也有类似的功能。通过收购Vertica获得技术的惠普,以及拥有Aster-Hadoop适配器的Teradata,以及拥有Netezza工具集的IBM,都将提供或即将提供类似的功能。

该业务也吸引初创企业屈指可数。

其中一家名为Metamarkets的公司开发了一项基于云的服务,旨在帮助公司实时分析大量的新鲜流数据。据该公司首席执行官迈克尔·德里斯科尔(Michael Driscoll)介绍,这项服务的核心是一项内部开发的分布式内存柱状数据库技术,名为Druid。他把德鲁依和德雷梅尔做了概念上的比较。

Driscoll说:“Dremel的架构从底层一直到分析数据存储。”他说,其面向列的、并行的内存设计使其比传统的数据存储快几个数量级。

“我们有一个非常类似的架构,”斯科尔说。“我们是,分布式内存面向列的。”

该Metamarkets技术,不过,甚至允许之前,将流数据存储企业跑过来的数据查询,因此允许更快的洞察力比的Dremel,他说。

今年早些时候,Metamarkets向开源社区发布了Druid,以刺激围绕该技术的更多开发活动。

德里斯科尔说,对这种技术的需求是由对速度的需求所驱动的。

Hadoop的,他说,简直是太缓慢的公司,需要亚毫秒级的查询响应时间。,斯科尔说,由传统的企业供应商所提供分析技术,例如那些比Hadoop的速度较快,但仍不能扩展,以及一个的Dremel或德鲁伊。

Nodeable,另一家风险投资支持的启动,提供了一个名为StreamReduce云托管服务,类似于Metamarkets产品。

StreamReduce由Storm提供支持,Storm是一种开源数据分析技术,最初是由BackType开发的通过推特去年。Storm也在Twitter内部使用,旨在让企业对流数据进行实时分析。

Nodeable提供一个连接器的Hadoop这样的企业可以使用该服务在其上运行存储在他们的Hadoop环境以及数据交互查询,首席执行官Dave罗森伯格说。

Nodeable推出的云系统管理公司,但看到了大数据分析技术的机会后,切换曲目。“我们意识到有一个缺乏实时补充Hadoop的。我们问自己,我们怎样才能实时使用Hadoop的?”罗森伯格说。

服务如Nodeable的不更换的Hadoop,他们补充它,罗森伯格说。

他说,StreamReduce为公司提供了一种从流数据中提取可操作信息的方法,这些数据可以存储在Hadoop环境中,也可以存储在另一个数据存储中,以便以后进行更传统的批处理。

流媒体引擎,如Nodeable和Metamarkets提供的引擎,在一个重要方面与Dremel等技术不同——它们的设计目的是在原始数据到达数据库之前对其进行分析。Dremel和其他技术是为特定的数据查询而设计的,这些数据存储在Hadoop环境中。

与此同时,主要的Hadoop玩家并没有袖手旁观。

商业Hadoop技术的最大供应商Cloudera上周推出了一项名为Hadoop的技术Cloudera的黑斑羚一个存储在Hadoop分布式文件系统中的数据的实时查询引擎。

因帕拉技术将允许公司做批量和实时业务的结构化和非结构化数据的一个系统内,根据Cloudera的。

Jaikumar Vijayan为Computerworld报道数据安全和隐私问题、金融服务安全和电子投票。关注Jaikumar的推特@jaivijayan或订阅Jaikumar的RSS提要。他的电邮地址是jvijayan@computerworld.com

阅读更多关于大数据的内容在计算机世界的大数据主题中心。

这个故事,“超越Hadoop的大数据需求”最初发表《计算机世界》

加入网络世界社区吧足球竞猜app软件脸谱网LinkedIn对大家最关心的话题发表评论。
有关:

版权所有©2012足球竞彩网下载

工资调查:结果是