企业Hadoop:大数据处理更加容易

亚马逊,Cloudera Hortonworks、IBM和MapR将简单的Hadoop集群的设置与专有扭曲和权衡

这是Apache Hadoop的重要的一年的开源项目,帮助你把你的工作负载在一架电脑。buzzword是众所周知的你的老板,但仍然只是一个模糊而朦胧的概念对你老板的老板。所说的甜点时,有足够的空间实验。使用Hadoop的公司每天生产工作更长时间,它可能不会是很久以前“Hadoop集群”接管单词“疯狂的超级计算机”的角色在惊悚电影。的下一个版本WOPR一定会运行Hadoop。

面积蓬勃发展为核心的项目吸引了广泛的辅助项目集合组织工作负载,让它更简单的管理工作运行在特定时间的集合。HDFS,一个标准的文件系统,可以将数据分散在集群;蜂巢,理解这些数据的数据仓库层;Mahout的例程,试图从说学习一些数据;动物园管理员,一个工具让所有的球在空中。至少六个或更多其他的开源工具Hadoop生活在一个稳定的轨道。

(探索当前趋势和信息世界的BI解决方案互动业务智能iGuide。|读到信息世界的2012年度技术赢家。|读到信息世界的十大新兴技术企业。|发现有什么新的业务应用程序信息世界的技术:应用程序通讯。]

开源项目仅仅是一个开始,一大批企业新兴的计划帮助人们实际使用Hadoop。一些只是销售支持,和其他人正在构建自己的工具,坐与Hadoop和使它更容易使用。

这种竞争是通常被视为最好的开源。有一个核心的集合包,像一个标准保持同步。每一组竞争添加合适的酱汁,将吸引顾客,支付和不合算的。继续有争论到底有多少是滚进中央集,因为可以在任何主要的开源项目,但实验的数量是如此之大,很难被过于关注共享的数量。

兴奋的感觉,我把四大集合试驾。我启动一个集群的节点在Rackspace,安装工具,按了按钮,一些样品的工作。将会变得很出人意料的容易花几个便士机器一到两个小时的时间,以至于我发现自己讨论是否值得留下集群在午餐时间空转。免得有人怀疑云计算的效率,我注意到我的脂肪相对机器集群的4 gb的RAM不到公园一辆汽车的成本在拐角处。停车米转的更快。

不好的消息是,这些集合远非完美。没有一个工具我试着完全按照承诺工作。总有小故障。我经常发现自己阅读日志文件通过无休止的Java堆栈转储文件列表和分页。(有人要使用Hadoop来分析无穷无尽的堆栈转储。他们参与,所以我怀疑一台机器能够解析了。)几秒钟后,我通常会把事情步入正轨了。这些工具可能不需要太多经验的人使用一旦运行,但他们不能被安装,除非你很熟练的方式Java堆栈被组织。

尽管存在这些障碍,我花了我的大部分时间在通过数据。好消息是,所有这些工具使它很容易得到一个集群的计算机一起工作来解决问题。使用这些工具是容易得多比自己下载和配置源代码。它们被设计为一键应用程序和他们接近实现这一目标。

Amazon Elastic MapReduce应该不足为奇,亚马逊云计算的先驱之一,提供了一种机制来旋转了Hadoop集群的EC2云。弹性MapReduce紧密集成与亚马逊的所有其他弹性产品,和它作为另一个主页选项卡在亚马逊网络服务。你在S3中存储数据,然后启动工作生产。

集成是成功的好。亚马逊提供了一个基于java的Web界面,一个伟大的扶持工作,照顾的许多故障经常发生当你第一次尝试软件。当它想要在一个S3 bucket中存储数据,我翻到一页来创建桶。

如果Web GUI有点太幼稚,还有一个典型的Web服务API的包裹在软件的其他程序员。我玩的工具集与一个基于ruby的提交工作,开始运行。标准的开始和结束是S3云。

与弹性MapReduce,亚马逊EC2之上的本质上是提供更好的包装对于那些愿意冒险深入亚马逊网络服务。我可以建立自己的集群使用的机器在EC2上和Hadoop发行版的旋转,但弹性MapReduce提供了一套不错的捷径。亚马逊已经构建和集成基础设施,你就按按钮选择哪个版本的您想要使用Hadoop(0.18或0.2)。没有必要担心哪个版本的Linux下运行。

基础设施是相当不错的。你可以选择为你的机器或支付股票价格竞标空机器在现货市场。这是一种额外的功能,刺激的自由市场的粉丝,但我发现它令人困惑。你选择你的出价,碰碰运气。如果你出价太少,你最终可能会等待很长时间,甚至永远。

应该注意的是,云没有立刻做出回应。从5到18分钟才执行小工作需要微秒一个完全配置集群在自己的服务器上执行。大的开销不会改变工作,但它不是一样拥有自己的集群耐心地等待着你按开始按钮。

利用所有这些特性意味着购买亚马逊的存储系统。如果你已经为你的数据使用S3,你会准备好了。如果你不是,你将不得不做出一些决定。有些人发现S3太贵的批量数据很少访问。你支付所有的工程建造的人需要一个相当不错的响应时间,这价格是内置在检索成本。

我认为亚马逊的所有额外的功能为两类用户都是不错的选择。如果你已经有大部分的相关数据在亚马逊的云,弹性MapReduce很容易自旋向上的工作分析。管道已经到位。

另一组将那些不需要集群的大部分时间,但想做短,密集的每周计算一次,每月一次或每季度一次。它不是很多工作来创建一个完整的Hadoop集群使用其他工具综述,但这是一种愚蠢的请求从头新机器不时。Amazon提供了一个不错的捷径上传一个Python脚本或者一个JAR文件,直接计算。

Cloudera鼎晖、经理和企业Cloudera是一个创业公司,收集了Hadoop使用Hadoop来自所有主要的公司的专家。首席技术官来自雅虎,Facebook的首席科学家,并从甲骨文首席执行官。员工充满了学习的人的名字Hadoop通过构建它。

公司销售培训、支持、专业服务,和一些工具来管理您的集群。Cloudera分布和集群的基本管理器是免费的不到50机器,而基于订阅的企业版提供了更多的功能来处理标准数据格式。

免费版非常有用对于启动集群和监控流经系统的工作。经理需要一个IP地址列表,使用SSH登录到他们时,和安装的主要工具。

自动化使它很容易运行Cloudera发行版,但我仍然不得不修补一些故障在CentOS安装它。一个组件想要一个特定版本的zip,停止,直到我自己登录到机器和安装。在另一个点,基于web的图形用户界面不会工作,直到我再次登录,安装了一个小部件库,ExtJS。开放源码许可可能不兼容。

日志让我想起一个小点。的IBM安装程序可以为每台机器使用一个不同的根密码。Cloudera的安装程序要使用相同的根密码或RSA密钥是相同的。这意味着我必须登录到所有的机器和更改密码,因为我正在使用CentOS的股票版本启动架子上。

我注意到这个小点,记得在这里说什么出售。工具都是开源和公司销售易用性。小延误时可以乘你不运行相同的代码。

我认为Cloudera已经做得更好的与不同的Linux发行版的工具。它列出了Ubuntu, Suse,红色的帽子,CentOS和Debian。虽然我不得不做一些与CentOS的修补,它是相对简单的。

免费的和企业版本的区别有点比我经常看到。专有版本不仅将处理50多个机器,但它还包括大量的监测、报告和数据分析工具。

换句话说,免费版是一个伟大的方式开始了Hadoop集群并确保所有正在运行,但你必须做一些在监视它。企业版包含更多的工具,自动化的戳,反复检查。

IBM InfoSphere BigInsights还IBM InfoSphere BigInsights还包Hadoop变成它调用。“Hadoop”这个词在主页,但广告文案清楚地表明,这是一个产品帮助那些想要“深刻理解”到“大数据”。It's a tool for data analysis that just happens to use Hadoop for all of the structure.

有两个层次:基本和企业。基本版是完全免费的,但如果你喜欢你可以买支持。企业版,可以通过一个商业许可证,包括一些额外的功能,如BigSheets spreadsheetlike工具钻入坐在集群数据。

收藏品包括所有常见的疾病和一些并不总是提到,如Lucene。Lucene是有意义的,因为BigInsights还包括不少肢解文本的机制。整个TextExtractors集合,做事情就像某些词搜索地址和旗帜。肉的文本分析在企业版。

IBM的文学说BigInsights包是Linux,但我发现它顺利只有Red Hat的企业分布。安装脚本会一瘸一拐地完成一些其他的我试过了,但是它经常报道,未能安装整个蜂巢等工具或猪。甚至CentOS没有足够接近运行。我认为它可能仍有可能使BigInsights还运行与Linux和快乐如果你熟练闲逛的日志文件,但它实现劳动节省企业只有在你运行Red Hat。

有几个不错的功能在这个安装脚本,。在我回想我在寻找一个好的分布,软件是小心翼翼地记得我所有的输入,所以它不会每次都需要重新配置。这应该是有用的在云,人们可能试图旋转一个集群,然后把它拆掉。该软件还包括一些小的功能,如记忆能力为每个节点不同的根密码;这些都很有帮助。

IBM工具的中心控制台,可以帮助你建立一些工作和踢。它是完全基于浏览器的——就像安装脚本,您可以简单地直接通过Web浏览器上传你的JAR文件。你甚至可以深入到HDFS文件系统层和读取结果不离开浏览器。

Web GUI使用命令行是一个巨大的进步,但我很容易发现多种方式控制台在基本版本可以改善。据我所知,没有办法删除旧的工作。为每个任务的信息包括基本的启动和停止时间的细节,但几乎所有其它只是抛弃了原始文本。它不会很难解析部分,做一个更好的工作显示日志信息。

监控也是最基本的。你可以看到节点集群和组件已经开始运行,但你不会得到任何酷刻度盘或小部件显示负载或进步。如果你问“细节”组件,你会得到一个弹出一些Log4J行相关组件。一个Java程序员不会只是一眨眼的功夫,但是其他人可能会发现它闲置和讨厌的。

12 第1页
第1页的2
工资调查:结果是在