有什么大不了的Hadoop呢?

Hadoop是所有的愤怒,似乎。与超过150的企业不同大小的使用它,包括摩根大通等大公司,谷歌和雅虎——它似乎是不可避免的开源的大数据管理系统将在你的商店,。

但在涌入之前,确保你知道你报名参加。使用Hadoop需要训练和分析专业技术的水平,不是所有的公司都有,客户和行业分析师表示。它仍然是一个非常年轻的市场;大量的Hadoop供应商在为和各种实现,包括的。

企业Hadoop供应商

免费的开源应用程序,Apache Hadoop,可供企业IT部门下载,使用和改变他们的愿望。

但对许多商业用户来说,需要支持和专业技术往往很大程度上遮蔽免费自己动手应用的诱惑,尤其是当有关键的IT系统。

这就是支持,企业级版本的Hadoop可以成为一个更好的,更现实的选择。

这是一个抽样的一些主要商业供应商可以帮助你的公司开始使用Hadoop。一些提供本地软件包;别人卖Hadoop云。也有一些Hadoop数据库电器开始出现,包括最近宣布。

Amazon Web Services Amazon Elastic MapReduce运行,托管Hadoop框架运行在Amazon的Elastic Compute Cloud及其简单存储服务

Cloudera企业订阅服务

使用Hadoop Datameer分析它的解决方案

DataStax企业Hadoop软件

Greenplum, EMC的一个部门,提供Greenplum高清企业级Apache Hadoop

Hortonworks数据平台

BigInsights还,一个非结构化数据基于Hadoop来自IBM的云服务

Karmasphere分析师,帮助生产数据使用Hadoop的工具包

MapR提供了企业级M5版本的Hadoop软件

这个列表功能的许多供应商提供企业今天Hadoop的产品和服务。供应商的数量不断增长,Hadoop收益稳定牵引在数据市场。

——托德·r·韦斯

最重要的是,也许:不要买到炒作。Forrester Research分析师James之前指出,只有1%的美国企业正在使用Hadoop在生产环境中。”,将在未来一年两倍或三倍,”他预计,但谨慎仍呼吁,与任何有前途的技术。

可以肯定的是,Hadoop优于传统的数据库管理系统,尤其是处理结构化数据的能力发现在关系数据库中一样,说,以及非结构化的信息,如视频,很多。系统还可以规模最小的麻烦和困扰。在线全球市场,eBay 9 pb级的结构化数据集群从Hadoop-based tb以及非结构化数据集群上运行“成千上万”的节点,根据休·威廉姆斯,副总统的经验,搜索和公司的平台。

“Hadoop确实改变了景观对我们来说,”他说。

“您可以运行许多不同的工作不同类型在相同的硬件上。世界pre-Hadoop相当灵活,”威廉姆斯说。“你可以充分利用集群的方式不同于最后一个用户使用它的方式。它允许您创建创新很少的门槛。这是很强大的。”

扩大,

一个Hadoop早期采用者,一家。的并发,销售视频直播系统。它还存储和分析大量的视频数据为其客户。更好地应对不断增加的it过程的数据量,同时开始使用Hadoop从两年前Cloudera鼎晖。

“Hadoop是铁锤我们用于大型数据问题,”威廉说一员,并发工程总监。“这使我们能够接受和处理大量的数据在很短的时间。”

一个并发部门收集并存储消费统计信息的视频。这就是Hadoop来救援,一员说。“我们现在有一个客户,是生成和存储一个月三十亿(数据)记录。我们预计在未来三个月内全面推出,这将是一个月100亿条记录。”

两个关键限制了并发过去,传统的关系数据库不能处理非结构化数据,如视频,处理和存储的数据量呈指数级增长更大。“我的客户想要保持他们的四到五年的数据,”一员解释说。“当他们每天生成一个拍字节,可以是一个大数据的问题。”

使用Hadoop,并发工程师发现他们可以处理他们的客户日益增长的需求,他说。“测试期间他们每天处理二十亿条记录的客户,并通过添加另一个服务器节点我们发现我们可以立即完成他们需要和它了,”一员说。

公司使用传统数据库运行相同的测试比较,发现Hadoop的主要好处之一是,额外的硬件可以轻松快速地根据需要被添加在无需额外的许可费用,因为它是开源的,他说。”,成为了微分器,”一员说。

另一个Hadoop用户、生命科学研发和基因组学公司NextBio,圣克拉拉,加州工作项目涉及巨大的数据集对人类基因测序和相关的科学研究。

“我们带来各种各样的基因组数据,然后牧师,丰富和比较它与其他数据集”使用Hadoop,表示分水岭Alag,研发工程NextBio副总统。“它允许大量的公共数据质量分析”为他们的客户,从制药公司学术研究者。从MapR NextBio使用Hadoop发行版。

典型的全基因组序列可以包含120 gb 150 gb的压缩数据,需要大约一半的tb存储进行处理,他说。在过去,需要三天去分析它,研发但有30到40机器运行Hadoop, NextBio的员工现在可以在三到四个小时。“对于任何应用程序,利用这些数据,这会产生很大的差别,“Alag说。

另一大优势是,他可以根据需要保持缩放系统只需添加更多的节点。“没有Hadoop、缩放具有挑战性和昂贵的,”他说。这种所谓的水平扩展,添加更多的节点硬件的Hadoop集群——是一个“非常具有成本效益的方式扩展我们的系统,”Alag解释道。Hadoop框架”自动负责集群中的节点失败。”

极大地改变了公司可以扩大其计算能力,以满足其需求,他说。“我们不想花数百万美元的基础设施。我们没有这样的资金。”

允许新类型的应用程序

Hadoop的一个巨大好处是能够分析大数据集的能力,迅速找出趋势,一员说。大型零售商,这可能意味着在Facebook或Twitter用户数据了解围巾颜色在时尚上个赛季,能够比较热颜色信息与今天的趋势,以帮助确定本赛季会卖什么。

“它使您能够及时回顾,寻找新的销售机会,“一员说。这个剧本时并发事务所分析汽车经销商的商业或广告。“我们可以看数据看谁看广告;那么你可能有一个有针对性的销售机会您可以利用销售。你总是不知道你在寻找什么。”

传统的数据库可以为许多排序和分析工作的需要,但随着超大型数据集,Hadoop可以更有效的方法找到的东西,一员说。“这真是建立处理。”

对他们来说,易趣的工程师”像能够处理非结构化数据…给eBay和构建新产品很快,”威廉姆斯说。因为eBay工程师可以访问公司的3亿年上市,历史信息和大量的相关信息,威廉姆斯说,“这使我们能够理解客户和建立他们想要的体验。”It's not really about the structured versus unstructured issue; rather, "it's about our engineers being able to roll up their sleeves and work with our data like never before," he says.

去年,eBay已经完成”与Hadoop一些非常奇妙的东西,包括改善商品,买家体验和顾客如何使用该网站,”威廉姆斯说。

年内,例如,eBay的员工可以看到当顾客开始键入在万圣节圣诞节查询和查询。“我可以告诉你的东西正在寻找的人。我们不理解这五年前使用的数据——一点也不。”

要小心了

Hadoop是好的,有一些警告。首先,“不要承诺或标准化的一个供应商还,“因为它是这样一个“动荡”空间,Forrester的之前。“供应商都继续快速发展。”On the other hand, that does create a "vibrant ecosystem," he says.

Gartner分析师马库斯·柯林斯说,由企业的专业知识需要充分利用Hadoop。“这是要求一定程度的分析功能,许多公司没有今天,”他说。“你需要训练你的员工和投资分析,这将使你在最好的位置,可以利用这一技术。”

另一个重要的考虑因素:大多数商店需要雇佣Hadoop专家,是谁供应不足,还是需要培训内部员工。“这不是微不足道的,”eBay的威廉姆斯说。“所以我们已经把大量的训练我们的工程师知道如何使用Hadoop,可以编写代码。你要投资你的开发人员和项目经理,这样他们就可以成为熟练的用户。不要低估。”

也会准备一个组织学习曲线的依赖任务关键型应用程序的开源系统。使用几不为人知的项目是一回事,但这是另一个完全开发大规模系统让全世界看到。最好的准备教育管理对开源的好处。

柯林斯的另一个技巧是保持“紧密联系”项目以确保其按计划进行。“不要把你的问题给您的Hadoop供应商,”他说。在一天结束的时候,“你要运行它。”

使用Hadoop之前也解释说,最佳实践仍在不断发展,所以最好找出一些短期利益你可能会从系统中,避免太长期的开始。建立专门的知识,你可以找到更多的事情要做软件。同时,早期采用者正在使用的范围的方法来构建和扩展集群“到处都是,”他说。

增加了,不更换,其他数据库

大多数客户使用Hadoop除了,而不是相反的,其他类型的软件。在eBay,例如,公司仍然使用关系数据库以及“很多定制(数据库)的工作,”威廉姆斯说。“在eBay,我们看到价值在使用多种技术来与我们的数据。Hadoop是一个很棒的选择在某些用途方面,而其他技术工作与为其他目的。”

例如,当涉及到事务”,总有意义使用关系数据库系统,”他说。但总体上仍是“在我们使用什么技术在eBay灵活;我们没有看到一个世界,在那里将会有一个统一的技术。”

技术建议

eBay的威廉姆斯Hadoop提供了这些策略在处理:

学习如何管理Hadoop有效地通过学习它的组织结构。“如果你有大量的人使用Hadoop集群,他们可能会尝试做一些相同的事情,”威廉姆斯说。“这意味着他们可能会生成相同的中间数据集分析,这是一种浪费。”

相反,他建议,早上运行公共数据查询一次,并将结果保存在一个地方的人需要他们可以使用,节省大量的处理时间和相关资源。“很难思考什么数据集是有用的为用户创建这些数据集”。

清理您的Hadoop集群是一个关键的维护项目。“这是非常重要的,”威廉姆斯说。“你可能会运行Hadoop工作,您将创建大量的数据。通常,人们做的工作文件只会走开。这是很典型的用户。如果你这样做,你会得到很多额外的Hadoop文件。

“所以你必须创建一个您的Hadoop集群战略保持整洁,这样你就不会耗尽磁盘空间。有人们清理不需要的东西。这些事情是很重要的如果你有一个大的Hadoop集群”。

同样的事情也发生在并发。Hadoop并没有取代了公司使用传统的关系数据库,包括MySQL、PostgreSQL和甲骨文。“这是一个相结合的解决方案,”一员说。“我们使用Hadoop来承担这个重任,如大规模的数据处理。然后,我们使用在Hadoop的Map / Reduce创建汇总数据,便于通过传统的RDBMS。”

往往发生在关系数据库中,他解释说,就是当系统太大,,说,每天2.5亿条记录——数据库变得“没有响应数据查询”。"However," he says, "Hadoop at that scale is not even breaking a sweat. Hadoop therefore can store, say, 5 billion records and with Map/Reduce we can create a summary of that data and insert it into a standard RDBMS for quick access."

一般来说,威廉姆斯说,“我不认为太多的“对Hadoop的局限性。“我思考的机会。你可以很快找到解决任何问题”通过开源社区。“有些人抱怨Hadoop的不同方面,但这是一个合理的新事物。这就像Linux在1993年或1994年。”

“我们看到独特的技术挑战我们的规模和极端数据,”威廉姆斯说,其中数据中心架构设计,设计一个网络支持Hadoop和选择合适的硬件。2020欧洲杯预赛

总的来说,易趣Hadoop是一个好的策略,威廉姆斯说。“对我们来说这是一个绝对的改变游戏规则。这是我们的工程师想要使用它真的帮助我们成为一个数据驱动的公司。”

这个故事,“有什么大不了的Hadoop呢?”最初发表的《计算机世界》

加入网络社区足球竞猜app软件脸谱网LinkedIn上面的评论主题思想。
相关:

版权©2012足球竞彩网下载

工资调查:结果是在